Python.duplicated()误报
我遇到了df.duplicated()错误返回true的问题。当我重置索引(df.reset_index())时,df.duplicates()返回正确的结果 然而,这一问题仍然存在,原因尚未确定,只是一个解决办法。从SQL数据库中读取数据后,我现在遇到了此问题。如果有人能提供解决方案,我将不胜感激,因为我不希望每次需要运行.duplicated()方法时都必须重置df的索引 当我使用df[df.duplicated()]显示“duplicates”时,我得到以下信息: 这些都不是重复的。在执行df.reset_index()之后,我得到了完全不同的(正确的)结果 我很困惑,在互联网上搜寻解决方案。我感谢任何人能提供的帮助Python.duplicated()误报,python,pandas,duplicates,false-positive,Python,Pandas,Duplicates,False Positive,我遇到了df.duplicated()错误返回true的问题。当我重置索引(df.reset_index())时,df.duplicates()返回正确的结果 然而,这一问题仍然存在,原因尚未确定,只是一个解决办法。从SQL数据库中读取数据后,我现在遇到了此问题。如果有人能提供解决方案,我将不胜感激,因为我不希望每次需要运行.duplicated()方法时都必须重置df的索引 当我使用df[df.duplicated()]显示“duplicates”时,我得到以下信息: 这些都不是重复的。在执行
我正在使用最新的Pandas(0.19.1)版本。然而,我用0.18试过了,也遇到了同样的问题。今天我的一根RAM棒死了。一旦被取代,这个问题就不再是问题了。我假设这就是导致我出现问题的原因,因为更换RAM后我没有任何问题
感谢您的评论和帮助。我真的很感激。我的一只公羊今天死了。一旦被取代,这个问题就不再是问题了。我假设这就是导致我出现问题的原因,因为更换RAM后我没有任何问题
感谢您的评论和帮助。我真的很感激。你怎么知道这些都不是重复的?您是否知道.duplicated的默认值为“first”,它不会将第一次出现设置为True。。。因此,如果您只有两个重复项,那么只返回最后一个元素?如果希望有人能够帮助您,您确实需要同时显示df和df.duplicated()。也就是说,请注意,该指数不会被纳入重复数据的计算中。但在重置_索引后,该索引将变为一个常规列,并且不会在计算中使用因子。因此,完全可以预期重置索引会产生不同的效果(如果索引是唯一的,那么在执行重置索引后,没有任何内容是重复的,这仅仅是因为索引本身是唯一的)。您如何知道这些内容都不是重复的?您是否知道.duplicated的默认值为“first”,它不会将第一次出现设置为True。。。因此,如果您只有两个重复项,那么只返回最后一个元素?如果希望有人能够帮助您,您确实需要同时显示df和df.duplicated()。也就是说,请注意,该指数不会被纳入重复数据的计算中。但在重置_索引后,该索引将变为一个常规列,并且不会在计算中使用因子。因此,我们完全可以预期reset_索引会产生不同的效果(如果索引是唯一的,那么在执行reset_索引之后,没有什么是重复的,因为索引本身是唯一的)。
name type code
John Doe A 6532
Jane Doe A 1124
Rudolph Doe B 3412