Python 如何在忽略空白的情况下删除数据帧中的重复项?

Python 如何在忽略空白的情况下删除数据帧中的重复项?,python,pandas,Python,Pandas,我有一个数据帧df: print df Name | Company | Mark |XYZ Corp | Mark | XYZ Corp | df = df.drop_duplicates() print df Name | Company | Mark |XYZ Corp | Mark | XYZ Corp | 我想忽略任何前导或前导空格并删除重复项。使用矢量化,然后可以调用删除重复项: In [271]

我有一个数据帧df:

  print df

  Name | Company     |
  Mark |XYZ Corp     |
  Mark |    XYZ Corp |

  df = df.drop_duplicates()
  print df

  Name | Company     |
  Mark |XYZ Corp     |
  Mark |    XYZ Corp |
我想忽略任何前导或前导空格并删除重复项。

使用矢量化,然后可以调用
删除重复项:

In [271]:
df['Company'] = df['Company'].str.strip()
df.drop_duplicates()

Out[271]:
   Name   Company
0  Mark  XYZ Corp

您需要使用
strip
删除空白,然后再删除重复项,例如:

for i, row in df.iterrows():
  df.loc[i, "Company"] = df.loc[i, "Company"].strip()

您必须先
lstrip
rstrip
,然后删除重复项,但是否要修改数据或在删除重复项后保留空白?对于
'ab'
'ab'
'A-B'
'A-B'
,你会怎么做?这是一个打字错误。我不是有意要输入“A-B”和“A-B”。我想修改数据。我将尝试应用lstrip和rstrip,这应该可以做到