Python Pandas read_具有chunksize的csv正在跳过数据
我使用的数据集有19090680行。超过1900万。如果我将chunksize设置为10**6,我的代码将运行两次。也就是说,在它终止之前要处理200万行。如果将chunksize设置为1000,则在退出for循环之前处理19087680行。这仍然只剩下3000行未处理。知道为什么吗 这是我的密码Python Pandas read_具有chunksize的csv正在跳过数据,python,python-3.x,pandas,Python,Python 3.x,Pandas,我使用的数据集有19090680行。超过1900万。如果我将chunksize设置为10**6,我的代码将运行两次。也就是说,在它终止之前要处理200万行。如果将chunksize设置为1000,则在退出for循环之前处理19087680行。这仍然只剩下3000行未处理。知道为什么吗 这是我的密码 cs = 1000 reader = pd.read_csv(file, delimiter='|', header=None, iterator=True, chunksize=cs) chunk
cs = 1000
reader = pd.read_csv(file, delimiter='|', header=None, iterator=True, chunksize=cs)
chunkCount = 0
for chunk in reader:
processedSeries = chunk.apply(process, axis=1)
processedSeries.to_csv("processed_data.csv", index=False, sep='|', header=None, mode='a')
编辑:我有熊猫0.17.1-np110py35_0
我正在更新,看看这是否能解决问题。升级到Pandas 0.18.0解决了这个问题。升级到Pandas 0.18.0解决了这个问题。为什么在第一种情况下,您的代码只处理了200万行就终止了?在第二种情况下,它是否会因为同样的原因(但要晚得多)而终止?这正是我的困境。在不同的情况下,它似乎过早地退出了读者。这两种不同的chunkSize在文件中的两个不同位置终止读取器,因此这并不清楚地表明我正在处理的文件存在任何问题。为什么在第一种情况下,您的代码在仅处理200万行后终止?在第二种情况下,它是否会因为同样的原因(但要晚得多)而终止?这正是我的困境。在不同的情况下,它似乎过早地退出了读者。这两个不同的chunksize在文件中的两个不同位置终止读卡器,因此这并不清楚地表明我正在处理的文件存在任何问题。