Python 如何合并所有Dask数据帧分区_Python_Multiprocessing_Large Data_Dask

Python 如何合并所有Dask数据帧分区

python dask

Python 如何合并所有Dask数据帧分区,python,multiprocessing,large-data,dask,Python,Multiprocessing,Large Data,Dask,我想使用Dask数据帧，我使用 Sales = dd.read_csv('Sales.txt',blocksize=500000, storage_options=dict(anon=True)) Product = dd.read_csv('Product.txt') 对于我的两个文件，我合并了两个表 df = sales_location = Sales.merge(Product, how='left', on ='Key')

我想使用Dask数据帧，我使用

    Sales = dd.read_csv('Sales.txt',blocksize=500000,
                     storage_options=dict(anon=True))

   Product = dd.read_csv('Product.txt')

对于我的两个文件，我合并了两个表

df = sales_location = Sales.merge(Product, how='left', on ='Key')

如果我不使用

blocksize

选项，销售文件有2800万行，它不会进行分区，而且进程很长（甚至是df.head（）），但如果我使用

blocksize

（超过1个分区），则进程是排序的，但没有所有文件，我只能看到部分数据

所以，我的问题是，如何使处理过程更快，并处理所有文件。我想用Dask数据帧创建一个大的主文件，并制作用于分析的小数据帧