Python 使用dask模块读取大型txt文件_Python_Python 2.7_Dask

Python 使用dask模块读取大型txt文件

python python-2.7 dask

Python 使用dask模块读取大型txt文件,python,python-2.7,dask,Python,Python 2.7,Dask,我正在尝试使用dask读取大量数据，如下所示 import dask.dataframe as dd df = dd.read_csv('some_file.txt', sep = '|', header = None) 虽然这很好，我得到了一组分区，但出于某种原因，每当我尝试如下设置和索引时： df = dd.read_csv('some_file.txt', sep = '|', header = None).set_index('col1') 我的机器内存不足，我无法理解为什么在大型

我正在尝试使用dask读取大量数据，如下所示

import dask.dataframe as dd

df = dd.read_csv('some_file.txt', sep = '|', header = None)

虽然这很好，我得到了一组分区，但出于某种原因，每当我尝试如下设置和索引时：

df = dd.read_csv('some_file.txt', sep = '|', header = None).set_index('col1')

我的机器内存不足，我无法理解为什么在大型数据集上重置索引是一项昂贵的操作，通常需要执行大型的核心外排序操作。Dask通过micro项目做到了这一点

然而，partd仍应在较小的空间中运行，大约1GB内存。您需要提供更多信息来正确诊断问题

或者，如果您能找到一种避免昂贵的无序排列/设置索引操作的方法，那么这总是明智的