Python 迭代以查找dataframe中的重复值_Python_Pandas_Loops

Python 迭代以查找dataframe中的重复值

python pandas loops

Python 迭代以查找dataframe中的重复值,python,pandas,loops,Python,Pandas,Loops,窗口10，Python 3.6 我有一个数据帧df df=pd.DataFrame({'name':['boo', 'foo', 'too', 'boo', 'roo', 'too'], 'zip':['30004', '02895', '02895', '30750', '02895', '02895']}) 我想找到具有相同“name”和“zip”的重复记录，并记录重复次数。想法输出是 name repeat zip 0 too 1

窗口10，Python 3.6

我有一个数据帧df

df=pd.DataFrame({'name':['boo', 'foo', 'too', 'boo', 'roo', 'too'],
                 'zip':['30004', '02895', '02895', '30750', '02895', '02895']})

我想找到具有相同“name”和“zip”的重复记录，并记录重复次数。想法输出是

  name repeat    zip
0  too      1  02895

因为我的数据帧远不止六行，所以我需要使用迭代方法。非常感谢您提供的提示。

我相信您需要所有栏目并使用：

Pandas有一个方便的

.duplicated（）

方法，可以帮助您识别重复项

df.duplicated()

通过将重复向量传递到选择中，可以获得重复记录：

df[df.duplicated()]

您可以使用

.sum（）

非常感谢@jezrael。伟大的方法！但是我真的需要一个迭代方法，因为数据正在流入，我需要找出重复的方法。@datanew-那么DataFrame是如何创建的呢？不知道你是否理解。有许多数据帧？@jezrarl-有更多行。这六行数据框是我的测试数据。@datanew-我很困惑-从在线数据源创建的数据框，然后用于我的解决方案。那么，从在线流数据创建的数据帧和从列表或csv创建的数据帧有什么区别呢？@jezrarl-谢谢！

df[df.duplicated()]

df.duplicated().sum()