Pandas 检测具有不同ID的行';s但是重复的值
我有一个数据框,它从设备上收集读数。有时,同一个样本有多个读数,这些读数作为单独的ID存储在我的数据框中。有没有办法通过使用具有相同值的列来检测重复的ID 示例数据帧:Pandas 检测具有不同ID的行';s但是重复的值,pandas,Pandas,我有一个数据框,它从设备上收集读数。有时,同一个样本有多个读数,这些读数作为单独的ID存储在我的数据框中。有没有办法通过使用具有相同值的列来检测重复的ID 示例数据帧: test_df = {'ID': [1,2,3,4,5,6], 'Age': [18,18,19,19,20,21], 'Sex':['Male','Male','Female','Female','Male','Female'], 'Values':[1200,200, 300, 400, 500,600]} 我希望结果返回
test_df = {'ID': [1,2,3,4,5,6], 'Age': [18,18,19,19,20,21], 'Sex':['Male','Male','Female','Female','Male','Female'], 'Values':[1200,200, 300, 400, 500,600]}
我希望结果返回ID的1,2,3,4
,因为当我们比较Age
和Sex
列值时,它们是重复的
预期产出:
ID Age Sex Values
1 18 Male 1200
2 18 Male 200
3 19 Female 300
4 19 Female 400
提供您希望输出数据帧看起来像什么的示例,使用
subset
和keep=False
参数:test_-df[test_-df.duplicated(subset=['Age','Sex'],keep=False)]
我知道这是离题的,我可以获得数据帧中实际ID的计数吗?在这种情况下,我在test_df中的实际样本计数为4,其中ID:1,3,5,6
,因为它们不同。您可以尝试len(test_df['ID'])来获得计数