Python 3.x pandas.read_csv提供内存错误,尽管尺寸相对较小

Python 3.x pandas.read_csv提供内存错误,尽管尺寸相对较小,python-3.x,pandas,csv,Python 3.x,Pandas,Csv,我正在尝试使用将CSV文件加载到熊猫数据帧中 import pandas as pd filename = '2016-2018_wave-IV.csv' df = pd.read_csv(filename) 然而,尽管我的电脑速度不是很慢(8GB RAM,64位python),文件也不是特别大(

我正在尝试使用将CSV文件加载到熊猫数据帧中

import pandas as pd
filename = '2016-2018_wave-IV.csv'

df = pd.read_csv(filename)
然而,尽管我的电脑速度不是很慢(8GB RAM,64位python),文件也不是特别大(<33 MB),但加载文件需要10分钟以上。我的理解是,这不应该花那么长的时间,我想找出这背后的原因。 (正如在类似问题中所建议的,我尝试使用
chunksize
usecol
参数(EDIT
low_memory
),但没有成功;因此我相信这不是重复,而是与文件或设置有关。)


谁能给我一个指针吗?非常感谢。:)

我正在测试您共享的文件,问题是这个csv文件的每一行都有前导和结尾双引号(所以Panda认为整行是一列)。在处理之前,必须先删除它,例如在linux中使用sed,或者在python中处理并重新保存文件,或者在文本编辑器中替换所有双引号。

要总结并扩展@Hubert Dudek的答案:


问题在于文件;它不仅包括
s位于每行的开头,但也位于行本身。在我修复了前者之后,后者导致列属性混乱。

您看到了吗?应将参数low_memory设置为Falsework@Vaishali,非常感谢-我尝试过,但没有成功,但忘了提及。不过,谢谢你的指点!:)这是一个巨大的文件。磁盘大小不表示文件中的数据量低。由于此文件包含文本,磁盘大小较小,但其中的数据量较大。试着一块一块地读。。谢谢,这和其他一些(类似的)问题导致了问题。在python中有什么方法可以做到这一点吗?