Python 熊猫-比较两个Csv数据帧,但一个Csv有问题

Python 熊猫-比较两个Csv数据帧,但一个Csv有问题,python,pandas,Python,Pandas,我有两个csv数据框,我正在尝试查找数据框2中不包含的唯一登录ID。我面临的问题是,以下代码运行,但df3正在返回来自df1的所有行和列。我怀疑df1中的一行存在问题,但这正是我需要您帮助的地方,请确定是什么原因导致了这一问题 df1中大约有24000行,df2中大约有8500行。当我得到df3时,它返回来自df1的所有24000行,我知道这是不正确的,因为两者之间有共同的登录。注意,df2中的登录名位于“用户编号”列下。我的代码如下: import pandas as pd import nu

我有两个csv数据框,我正在尝试查找数据框2中不包含的唯一登录ID。我面临的问题是,以下代码运行,但df3正在返回来自df1的所有行和列。我怀疑df1中的一行存在问题,但这正是我需要您帮助的地方,请确定是什么原因导致了这一问题

df1中大约有24000行,df2中大约有8500行。当我得到df3时,它返回来自df1的所有24000行,我知道这是不正确的,因为两者之间有共同的登录。注意,df2中的登录名位于“用户编号”列下。我的代码如下:

import pandas as pd
import numpy as np
import csv

fileLocationDf1 = "corpscore.csv"
fileLocationDf2 = "ENFI.csv"

createDf1 = pd.read_csv(fileLocationDf1)
createDf2 = pd.read_csv(fileLocationDf2, low_memory = False)

df3 = createDf1[~createDf1['login'].isin(createDf2['User Number'])]

df3.to_excel('Results.xlsx', sheet_name = 'Results')

检查您的数据。可能是您的数据类型不同

请参见示例:

df1 = pd.DataFrame({'A': [1,2,3]})

df2 = pd.DataFrame({'A': ['2','5','6']})

df1[~df1['A'].isin(df2['A'])]
#   A
#0  1
#2  3
还有这个:

df2 = pd.DataFrame({'A': ['2','5a','6a'],
                    'B': list('def'),
                    'C': [1.7,0.3,2.8]})
df1[~df1['A'].isin(df2['A'])]
#   A
#0  1
#1  2
#2  3

这里发生的事情是,
.isin()
正在尝试将
.isin()
中的整个系列转换为与您调用的
数据类型相同的
数据类型,然后进行比较。

提供一些示例数据。确保数据类型匹配,
low_memory=False
可能会跳过某些类型转换,因此您可能会在
isin
中比较'object'和'int'左右,并获得所有
False
进行索引。同时检查
df3.dtypes
,您的序列可能不是同一类型,例如,
int
vs
str
无法比较。完美-df2有一些字符串登录。。。非常感谢你的帮助。它起作用了。。。