Python 使用列值删除部分重复行

Python 使用列值删除部分重复行,python,pandas,Python,Pandas,我正在尝试清理存在大量部分重复的数据,当Col a中的键有重复项时,只存储第一行数据 A B C D 0 foo bar lor ips 1 foo bar 2 test do kin ret 3 test do 4 er ed ln pr 清洗后的预期产量 A B C D 0 foo bar lor i

我正在尝试清理存在大量部分重复的数据,当Col a中的键有重复项时,只存储第一行数据

    A       B    C     D
0   foo     bar  lor   ips
1   foo     bar      
2   test    do    kin  ret
3   test    do     
4   er      ed    ln    pr
清洗后的预期产量

    A       B    C     D
0   foo     bar  lor   ips
1   test    do    kin  ret
2   er      ed    ln    pr
我一直在研究诸如drop_duplicates甚至group_by之类的方法,但在我的例子中它们并没有真正的帮助:复制是部分的,因为有些行包含空数据,并且在列A和B中只有类似的值。 按部分工作分组,但不返回转换后的数据,它们只是进行筛选

我对熊猫很陌生,非常感激。我也许可以在熊猫外面做,但我想可能有更好的方法


编辑:抱歉,刚才注意到我在提供的示例中犯了一个错误。(测试已变成“tes”

在您的情况下,如何说部分重复?请提供复杂的示例。在上面的示例中,您可以尝试B列而不是A列重复

可以从以下代码段获得预期的输出

print (df.drop_duplicates(subset=['B']))

注意:建议的解决方案仅适用于上述样本,当其具有不同的A列和相同的B列值时将不起作用。

在您的情况下,如何说部分重复?请提供复杂的示例。在上述示例中,您可以尝试B列而不是A列重复

可以从以下代码段获得预期的输出

print (df.drop_duplicates(subset=['B']))

注意:建议的解决方案仅适用于上述样本,当其具有不同的A列和相同的B列值时将不起作用。

您是否尝试了
df.drop\u重复项(subset=['A'],keep='first')
@Aritesh它不适用于
tes
test
这是我的错误。这确实是对两种原始数据的测试。你是否尝试过
df。删除重复数据(subset=['A'],keep='first')
@Aritesh它不适用于
tes
test
这是我的错误。这确实是对两种原始数据的测试。对不起