Python 如何在忽略空白的情况下删除数据帧中的重复项?
我有一个数据帧df:Python 如何在忽略空白的情况下删除数据帧中的重复项?,python,pandas,Python,Pandas,我有一个数据帧df: print df Name | Company | Mark |XYZ Corp | Mark | XYZ Corp | df = df.drop_duplicates() print df Name | Company | Mark |XYZ Corp | Mark | XYZ Corp | 我想忽略任何前导或前导空格并删除重复项。使用矢量化,然后可以调用删除重复项: In [271]
print df
Name | Company |
Mark |XYZ Corp |
Mark | XYZ Corp |
df = df.drop_duplicates()
print df
Name | Company |
Mark |XYZ Corp |
Mark | XYZ Corp |
我想忽略任何前导或前导空格并删除重复项。使用矢量化,然后可以调用删除重复项:
In [271]:
df['Company'] = df['Company'].str.strip()
df.drop_duplicates()
Out[271]:
Name Company
0 Mark XYZ Corp
您需要使用strip
删除空白,然后再删除重复项,例如:
for i, row in df.iterrows():
df.loc[i, "Company"] = df.loc[i, "Company"].strip()
您必须先lstrip
和rstrip
,然后删除重复项,但是否要修改数据或在删除重复项后保留空白?对于'ab'
和'ab'
和'A-B'
和'A-B'
,你会怎么做?这是一个打字错误。我不是有意要输入“A-B”和“A-B”。我想修改数据。我将尝试应用lstrip和rstrip,这应该可以做到