Python 加载多个csv文件后在dask中运行操作时出现问题

Python 加载多个csv文件后在dask中运行操作时出现问题,python,csv,dataframe,dask,Python,Csv,Dataframe,Dask,我正试图开始在一些ML项目中使用dask来处理大型数据集。将单个CSV文件加载到dask数据帧中效果良好。当我尝试使用多个CSV文件时,任何类似“计算”的操作都会导致程序无限期挂起 这个很好 import dask.dataframe as dd import pandas as pd import dask from dask.distributed import Client client = Client(processes=False) df = dd.read_csv('sftp:/

我正试图开始在一些ML项目中使用dask来处理大型数据集。将单个CSV文件加载到dask数据帧中效果良好。当我尝试使用多个CSV文件时,任何类似“计算”的操作都会导致程序无限期挂起

这个很好

import dask.dataframe as dd
import pandas as pd
import dask
from dask.distributed import Client

client = Client(processes=False)
df = dd.read_csv('sftp://somestuff//4120109.csv')
shape = dask.delayed(print)(df.shape)
shape.compute()
输出:(36003723)

以下代码无限期挂起

import dask.dataframe as dd
import pandas as pd
import dask
from dask.distributed import Client

client = Client(processes=False)
df = dd.read_csv('sftp://somestuff//412010*.csv')
shape = dask.delayed(print)(df.shape)
shape.compute()
它应该加载10个匹配的文件,并给出(360003273)的形状
我知道在放入一些可选打印行后,它会特别挂在shape.compute()行上。任何帮助都将不胜感激

不应混合使用dask.delayed和dask.dataframe。可能您只是想调用
dask.compute(df.shape)


运行脚本仍然挂起,我完全忘记了映射分区。我将试着看看它是否能那样工作。谢谢你的信息!