Python Pandas read_具有chunksize的csv正在跳过数据_Python_Python 3.x_Pandas

Python Pandas read_具有chunksize的csv正在跳过数据

python python-3.x pandas

Python Pandas read_具有chunksize的csv正在跳过数据,python,python-3.x,pandas,Python,Python 3.x,Pandas,我使用的数据集有19090680行。超过1900万。如果我将chunksize设置为10**6，我的代码将运行两次。也就是说，在它终止之前要处理200万行。如果将chunksize设置为1000，则在退出for循环之前处理19087680行。这仍然只剩下3000行未处理。知道为什么吗这是我的密码 cs = 1000 reader = pd.read_csv(file, delimiter='|', header=None, iterator=True, chunksize=cs) chunk

我使用的数据集有19090680行。超过1900万。如果我将chunksize设置为10**6，我的代码将运行两次。也就是说，在它终止之前要处理200万行。如果将chunksize设置为1000，则在退出for循环之前处理19087680行。这仍然只剩下3000行未处理。知道为什么吗

这是我的密码

cs = 1000
reader = pd.read_csv(file, delimiter='|', header=None, iterator=True, chunksize=cs) 
chunkCount = 0
for chunk in reader:
    processedSeries = chunk.apply(process, axis=1)
    processedSeries.to_csv("processed_data.csv", index=False, sep='|', header=None, mode='a')

编辑：我有熊猫0.17.1-np110py35_0

我正在更新，看看这是否能解决问题。

升级到Pandas 0.18.0解决了这个问题。

为什么在第一种情况下，您的代码只处理了200万行就终止了？在第二种情况下，它是否会因为同样的原因（但要晚得多）而终止？这正是我的困境。在不同的情况下，它似乎过早地退出了读者。这两种不同的chunkSize在文件中的两个不同位置终止读取器，因此这并不清楚地表明我正在处理的文件存在任何问题。为什么在第一种情况下，您的代码在仅处理200万行后终止？在第二种情况下，它是否会因为同样的原因（但要晚得多）而终止？这正是我的困境。在不同的情况下，它似乎过早地退出了读者。这两个不同的chunksize在文件中的两个不同位置终止读卡器，因此这并不清楚地表明我正在处理的文件存在任何问题。