dask至_拼花地板间歇性故障

dask至_拼花地板间歇性故障,dask,parquet,dask-distributed,dask-dataframe,Dask,Parquet,Dask Distributed,Dask Dataframe,前言:我知道在征求意见时最好选择一个最小的例子,但这是一个间歇性的问题,我不了解问题的性质,因此我无法找到一个最小的例子。提前感谢你的帮助 背景: 我一直在使用dask数据帧和带有Yancluster的分布式dask来处理数据,并将dask数据帧写入hdfs 问题:在将dask数据帧写入拼花地板的写入分区步骤中,我间歇性地遇到KilledWorker异常。所讨论的数据帧约为25GB,在执行到拼花地板时,从先前的处理步骤中使用了约150GB的内存。我已在超过50名工作人员中分配了超过1 Tb的内存

前言:我知道在征求意见时最好选择一个最小的例子,但这是一个间歇性的问题,我不了解问题的性质,因此我无法找到一个最小的例子。提前感谢你的帮助

背景: 我一直在使用dask数据帧和带有Yancluster的分布式dask来处理数据,并将dask数据帧写入hdfs

问题:在将dask数据帧写入拼花地板的写入分区步骤中,我间歇性地遇到KilledWorker异常。所讨论的数据帧约为25GB,在执行到拼花地板时,从先前的处理步骤中使用了约150GB的内存。我已在超过50名工作人员中分配了超过1 Tb的内存

我所尝试的: 我已经尝试将dask数据帧的分区大小从100MB调整到1000MB,将辅助内存从10 Gb增加到20GB,并将辅助内存的数量从50增加到100。我也尝试过使用pyarrow和fastparquet的后端。我还尝试减少持续的间歇处理步骤,以减少内存中的数据量。但是,所有这些操作都没有解决问题,并且to_拼花地板步骤仅在每4次尝试中成功1次

我的问题: 我应该采取哪些额外的调试步骤?我想避免被杀工人的例外情况,每次都让我去做拼花地板的工作,但我不知道如何解决这个问题