Dask映射在折叠后变为连续

Dask映射在折叠后变为连续,dask,Dask,我一直在使用dask与jupyter一起做定制的ETL工作(工作起来很有魅力) 我的大多数管道都是过滤器->映射->折叠的->映射,我发现第二个映射操作(在折叠之后)正在按顺序执行(请参见下面的bokeh图) 代码段: ( 分贝 .read_text(路径、存储选项=凭据) .filter(谓词) .map(转换) .foldby(键、副词、首字母、组合词、首字母) .地图(2) ) 这正常吗?我不明白为什么需要按顺序执行.map(transform2)操作。foldby的输出是一个带有

我一直在使用dask与jupyter一起做定制的ETL工作(工作起来很有魅力)

我的大多数管道都是
过滤器
->
映射
->
折叠的
->
映射
,我发现第二个
映射
操作(在
折叠
之后)正在按顺序执行(请参见下面的bokeh图)

代码段:

(
分贝
.read_text(路径、存储选项=凭据)
.filter(谓词)
.map(转换)
.foldby(键、副词、首字母、组合词、首字母)
.地图(2)
)  


这正常吗?我不明白为什么需要按顺序执行
.map(transform2)
操作。

foldby的输出是一个带有单个分区的包。你可以考虑“代码>重新分区< /代码>在FordBy之后将包重新拆分。

可怕。”代码>重新分区
的速度非常慢。最后,我让
折叠操作排在最后,现在速度非常快:)谢谢!尽管如此,foldby操作看起来仍然有一个巨大的任务在最后按顺序执行。这正常吗?看起来foldby在处理之前将所有中间结果聚合为一个输出。如果要求用户也提供组合功能,则这一点可以得到改进。你可能想提出一个问题。