Python 使用列值删除部分重复行_Python_Pandas

Python 使用列值删除部分重复行

python pandas

Python 使用列值删除部分重复行,python,pandas,Python,Pandas,我正在尝试清理存在大量部分重复的数据，当Col a中的键有重复项时，只存储第一行数据 A B C D 0 foo bar lor ips 1 foo bar 2 test do kin ret 3 test do 4 er ed ln pr 清洗后的预期产量 A B C D 0 foo bar lor i

我正在尝试清理存在大量部分重复的数据，当Col a中的键有重复项时，只存储第一行数据

    A       B    C     D
0   foo     bar  lor   ips
1   foo     bar      
2   test    do    kin  ret
3   test    do     
4   er      ed    ln    pr

清洗后的预期产量

    A       B    C     D
0   foo     bar  lor   ips
1   test    do    kin  ret
2   er      ed    ln    pr

我一直在研究诸如drop_duplicates甚至group_by之类的方法，但在我的例子中它们并没有真正的帮助：复制是部分的，因为有些行包含空数据，并且在列A和B中只有类似的值。按部分工作分组，但不返回转换后的数据，它们只是进行筛选

我对熊猫很陌生，非常感激。我也许可以在熊猫外面做，但我想可能有更好的方法

编辑：抱歉，刚才注意到我在提供的示例中犯了一个错误。（测试已变成“tes”

在您的情况下，如何说部分重复？请提供复杂的示例。在上面的示例中，您可以尝试B列而不是A列重复

可以从以下代码段获得预期的输出

print (df.drop_duplicates(subset=['B']))

注意：建议的解决方案仅适用于上述样本，当其具有不同的A列和相同的B列值时将不起作用。

在您的情况下，如何说部分重复？请提供复杂的示例。在上述示例中，您可以尝试B列而不是A列重复

可以从以下代码段获得预期的输出

print (df.drop_duplicates(subset=['B']))

注意：建议的解决方案仅适用于上述样本，当其具有不同的A列和相同的B列值时将不起作用。

您是否尝试了

df.drop\u重复项（subset=['A']，keep='first'）

@Aritesh它不适用于

tes

和

test

这是我的错误。这确实是对两种原始数据的测试。你是否尝试过

df。删除重复数据（subset=['A']，keep='first'）

@Aritesh它不适用于

tes

和

test

这是我的错误。这确实是对两种原始数据的测试。对不起