Python 查找缺少的值

Python 查找缺少的值,python,pandas,Python,Pandas,我有一个庞大的学生数据集,每个学生都有自己的csv文件, 数据集B有297444个csv文件,我想知道该数据集中缺少哪个学生csv文件 如图所示,该数据集中没有u2.csv文件,因此如何使用pandas检查丢失的所有csv文件 这是我到目前为止试过的代码 import pandas as pd import numpy as np import glob path = r'C:/Users/user1/Desktop/EDNET DATA/EdNet-KT4/KT4' # use your p

我有一个庞大的学生数据集,每个学生都有自己的csv文件, 数据集B有297444个csv文件,我想知道该数据集中缺少哪个学生csv文件

如图所示,该数据集中没有u2.csv文件,因此如何使用pandas检查丢失的所有csv文件

这是我到目前为止试过的代码

import pandas as pd
import numpy as np
import glob

path = r'C:/Users/user1/Desktop/EDNET DATA/EdNet-KT4/KT4' # use your path
all_files = glob.glob(path + "/*.csv")

li = []

for i,filename in enumerate (all_files):
    
    df = pd.read_csv(filename, ',' ,index_col=None, header=0).assign(user_iD=filename.split("\\")[-1].split(".")[0])
    
    li.append(df)

data = pd.concat(li, axis=0, ignore_index=True)
df = data.copy()

df.isnull().sum()

df.to_feather('KT4.ftr')
data1= pd.read_feather('KT4.ftr')
data1.head()

解决方案
到目前为止你试过什么?给我们看看你的代码!添加现有代码,您如何访问这些文件。我刚刚将所有csv文件合并到一个单独的feather文件中,到目前为止,我刚刚检查了数据集中存在哪些缺失值(Nan值),我不确定如何检查哪些csv文件缺失?首先尝试一些简单的事情:获取所有学生姓名的列表,然后是所有文件名的列表。然后循环检查所有学生姓名,并检查每个学生姓名是否在其他列表中。不用看文件,我觉得你不应该用熊猫来做这个。只需创建一个目录中所有文件的列表,删除“u”前缀,然后找到丢失的数字(您可以创建一个新列表,列出原始列表中从1到最大数字的所有数字),然后从新列表中删除原始列表中的数字。@haseeb sultan请查看此列表。我希望这就是你要找的。