Python 加载多个csv文件后在dask中运行操作时出现问题_Python_Csv_Dataframe_Dask

Python 加载多个csv文件后在dask中运行操作时出现问题

python csv dataframe dask

Python 加载多个csv文件后在dask中运行操作时出现问题,python,csv,dataframe,dask,Python,Csv,Dataframe,Dask,我正试图开始在一些ML项目中使用dask来处理大型数据集。将单个CSV文件加载到dask数据帧中效果良好。当我尝试使用多个CSV文件时，任何类似“计算”的操作都会导致程序无限期挂起这个很好 import dask.dataframe as dd import pandas as pd import dask from dask.distributed import Client client = Client(processes=False) df = dd.read_csv('sftp:/

我正试图开始在一些ML项目中使用dask来处理大型数据集。将单个CSV文件加载到dask数据帧中效果良好。当我尝试使用多个CSV文件时，任何类似“计算”的操作都会导致程序无限期挂起

这个很好

import dask.dataframe as dd
import pandas as pd
import dask
from dask.distributed import Client

client = Client(processes=False)
df = dd.read_csv('sftp://somestuff//4120109.csv')
shape = dask.delayed(print)(df.shape)
shape.compute()

输出：（36003723）

以下代码无限期挂起

import dask.dataframe as dd
import pandas as pd
import dask
from dask.distributed import Client

client = Client(processes=False)
df = dd.read_csv('sftp://somestuff//412010*.csv')
shape = dask.delayed(print)(df.shape)
shape.compute()

它应该加载10个匹配的文件，并给出（360003273）的形状

我知道在放入一些可选打印行后，它会特别挂在shape.compute（）行上。任何帮助都将不胜感激

不应混合使用dask.delayed和dask.dataframe。可能您只是想调用

dask.compute（df.shape）

运行脚本仍然挂起，我完全忘记了映射分区。我将试着看看它是否能那样工作。谢谢你的信息！