Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/wordpress/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Pandas read_具有chunksize的csv正在跳过数据_Python_Python 3.x_Pandas - Fatal编程技术网

Python Pandas read_具有chunksize的csv正在跳过数据

Python Pandas read_具有chunksize的csv正在跳过数据,python,python-3.x,pandas,Python,Python 3.x,Pandas,我使用的数据集有19090680行。超过1900万。如果我将chunksize设置为10**6,我的代码将运行两次。也就是说,在它终止之前要处理200万行。如果将chunksize设置为1000,则在退出for循环之前处理19087680行。这仍然只剩下3000行未处理。知道为什么吗 这是我的密码 cs = 1000 reader = pd.read_csv(file, delimiter='|', header=None, iterator=True, chunksize=cs) chunk

我使用的数据集有19090680行。超过1900万。如果我将chunksize设置为10**6,我的代码将运行两次。也就是说,在它终止之前要处理200万行。如果将chunksize设置为1000,则在退出for循环之前处理19087680行。这仍然只剩下3000行未处理。知道为什么吗

这是我的密码

cs = 1000
reader = pd.read_csv(file, delimiter='|', header=None, iterator=True, chunksize=cs) 
chunkCount = 0
for chunk in reader:
    processedSeries = chunk.apply(process, axis=1)
    processedSeries.to_csv("processed_data.csv", index=False, sep='|', header=None, mode='a')
编辑:我有熊猫0.17.1-np110py35_0
我正在更新,看看这是否能解决问题。

升级到Pandas 0.18.0解决了这个问题。

升级到Pandas 0.18.0解决了这个问题。

为什么在第一种情况下,您的代码只处理了200万行就终止了?在第二种情况下,它是否会因为同样的原因(但要晚得多)而终止?这正是我的困境。在不同的情况下,它似乎过早地退出了读者。这两种不同的chunkSize在文件中的两个不同位置终止读取器,因此这并不清楚地表明我正在处理的文件存在任何问题。为什么在第一种情况下,您的代码在仅处理200万行后终止?在第二种情况下,它是否会因为同样的原因(但要晚得多)而终止?这正是我的困境。在不同的情况下,它似乎过早地退出了读者。这两个不同的chunksize在文件中的两个不同位置终止读卡器,因此这并不清楚地表明我正在处理的文件存在任何问题。