Python 熊猫用4GB的csv读取_csv_Python_Python 3.x_Pandas_Csv

Python 熊猫用4GB的csv读取_csv

python python-3.x pandas csv

Python 熊猫用4GB的csv读取_csv,python,python-3.x,pandas,csv,Python,Python 3.x,Pandas,Csv,我的电脑在使用chunksize选项读取jupyter笔记本中4GB的csv时出现了问题： raw=pd.read\u csv（csv\u路径，chunksize=10**6）数据=pd.concat（原始，忽略索引=True）这需要永远运行，也需要冻结我的机器（Ubuntu16.04，16GB内存）。正确的方法是什么？使用区块的意义在于，您不需要一次将整个数据集存储在内存中，您可以在读取文件时处理每个区块。假设您一次不需要将整个数据集存储在内存中，您可以这样做 chunksize =

我的电脑在使用chunksize选项读取jupyter笔记本中4GB的csv时出现了问题：


raw=pd.read\u csv（csv\u路径，chunksize=10**6）
数据=pd.concat（原始，忽略索引=True）

这需要永远运行，也需要冻结我的机器（Ubuntu16.04，16GB内存）。正确的方法是什么？

使用区块的意义在于，您不需要一次将整个数据集存储在内存中，您可以在读取文件时处理每个区块。假设您一次不需要将整个数据集存储在内存中，您可以这样做

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
   do_something(chunk)

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
   do_something(chunk)