Python 使用列值删除部分重复行
我正在尝试清理存在大量部分重复的数据,当Col a中的键有重复项时,只存储第一行数据Python 使用列值删除部分重复行,python,pandas,Python,Pandas,我正在尝试清理存在大量部分重复的数据,当Col a中的键有重复项时,只存储第一行数据 A B C D 0 foo bar lor ips 1 foo bar 2 test do kin ret 3 test do 4 er ed ln pr 清洗后的预期产量 A B C D 0 foo bar lor i
A B C D
0 foo bar lor ips
1 foo bar
2 test do kin ret
3 test do
4 er ed ln pr
清洗后的预期产量
A B C D
0 foo bar lor ips
1 test do kin ret
2 er ed ln pr
我一直在研究诸如drop_duplicates甚至group_by之类的方法,但在我的例子中它们并没有真正的帮助:复制是部分的,因为有些行包含空数据,并且在列A和B中只有类似的值。
按部分工作分组,但不返回转换后的数据,它们只是进行筛选
我对熊猫很陌生,非常感激。我也许可以在熊猫外面做,但我想可能有更好的方法
编辑:抱歉,刚才注意到我在提供的示例中犯了一个错误。(测试已变成“tes”在您的情况下,如何说部分重复?请提供复杂的示例。在上面的示例中,您可以尝试B列而不是A列重复 可以从以下代码段获得预期的输出
print (df.drop_duplicates(subset=['B']))
注意:建议的解决方案仅适用于上述样本,当其具有不同的A列和相同的B列值时将不起作用。在您的情况下,如何说部分重复?请提供复杂的示例。在上述示例中,您可以尝试B列而不是A列重复 可以从以下代码段获得预期的输出
print (df.drop_duplicates(subset=['B']))
注意:建议的解决方案仅适用于上述样本,当其具有不同的A列和相同的B列值时将不起作用。您是否尝试了
df.drop\u重复项(subset=['A'],keep='first')
@Aritesh它不适用于tes
和test
这是我的错误。这确实是对两种原始数据的测试。你是否尝试过df。删除重复数据(subset=['A'],keep='first')
@Aritesh它不适用于tes
和test
这是我的错误。这确实是对两种原始数据的测试。对不起