Python 熊猫用4GB的csv读取_csv
我的电脑在使用chunksize选项读取jupyter笔记本中4GB的csv时出现了问题:Python 熊猫用4GB的csv读取_csv,python,python-3.x,pandas,csv,Python,Python 3.x,Pandas,Csv,我的电脑在使用chunksize选项读取jupyter笔记本中4GB的csv时出现了问题: raw=pd.read\u csv(csv\u路径,chunksize=10**6) 数据=pd.concat(原始,忽略索引=True) 这需要永远运行,也需要冻结我的机器(Ubuntu16.04,16GB内存)。正确的方法是什么?使用区块的意义在于,您不需要一次将整个数据集存储在内存中,您可以在读取文件时处理每个区块。假设您一次不需要将整个数据集存储在内存中,您可以这样做 chunksize =
raw=pd.read\u csv(csv\u路径,chunksize=10**6)
数据=pd.concat(原始,忽略索引=True)
这需要永远运行,也需要冻结我的机器(Ubuntu16.04,16GB内存)。正确的方法是什么?使用区块的意义在于,您不需要一次将整个数据集存储在内存中,您可以在读取文件时处理每个区块。假设您一次不需要将整个数据集存储在内存中,您可以这样做
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
do_something(chunk)
使用区块的意义在于,您不需要一次将整个数据集存储在内存中,您可以在读取文件时处理每个区块。假设您一次不需要将整个数据集存储在内存中,您可以这样做
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
do_something(chunk)