Python 使用dask模块读取大型txt文件

Python 使用dask模块读取大型txt文件,python,python-2.7,dask,Python,Python 2.7,Dask,我正在尝试使用dask读取大量数据,如下所示 import dask.dataframe as dd df = dd.read_csv('some_file.txt', sep = '|', header = None) 虽然这很好,我得到了一组分区,但出于某种原因,每当我尝试如下设置和索引时: df = dd.read_csv('some_file.txt', sep = '|', header = None).set_index('col1') 我的机器内存不足,我无法理解为什么在大型

我正在尝试使用dask读取大量数据,如下所示

import dask.dataframe as dd

df = dd.read_csv('some_file.txt', sep = '|', header = None)
虽然这很好,我得到了一组分区,但出于某种原因,每当我尝试如下设置和索引时:

df = dd.read_csv('some_file.txt', sep = '|', header = None).set_index('col1')

我的机器内存不足,我无法理解为什么在大型数据集上重置索引是一项昂贵的操作,通常需要执行大型的核心外排序操作。Dask通过micro项目做到了这一点

然而,partd仍应在较小的空间中运行,大约1GB内存。您需要提供更多信息来正确诊断问题

或者,如果您能找到一种避免昂贵的无序排列/设置索引操作的方法,那么这总是明智的