Dataframe 用于70GB数据联接操作的dask数据帧最佳分区大小
我有一个大约70GB的dask数据帧和3列,无法放入内存。我的机器是一个8核Xeon,带有64GB的Ram和一个本地Dask集群 我必须将这3列中的每一列连接到另一个更大的数据帧 建议分区大小为100MB。然而,考虑到数据的大小,连接700个分区似乎比连接70个分区和1000MB的工作要多得多 是否有理由将其保持在700 x 100MB的分区? 如果不是,这里应该使用哪个分区大小? 这是否也取决于我使用的工人数量Dataframe 用于70GB数据联接操作的dask数据帧最佳分区大小,dataframe,join,dask,dask-distributed,Dataframe,Join,Dask,Dask Distributed,我有一个大约70GB的dask数据帧和3列,无法放入内存。我的机器是一个8核Xeon,带有64GB的Ram和一个本地Dask集群 我必须将这3列中的每一列连接到另一个更大的数据帧 建议分区大小为100MB。然而,考虑到数据的大小,连接700个分区似乎比连接70个分区和1000MB的工作要多得多 是否有理由将其保持在700 x 100MB的分区? 如果不是,这里应该使用哪个分区大小? 这是否也取决于我使用的工人数量 1 x 50GB工作线程 2 x 25GB工作线程 3 x 17GB工作线程 最
- 1 x 50GB工作线程
- 2 x 25GB工作线程
- 3 x 17GB工作线程
n*log(n)
任务,因此减少任务数量(并因此增加分区大小)是非常有利的
确定最佳分区大小是一项挑战。一般来说,我们所能做的最好的事情就是提供关于正在发生的事情的见解。可从以下网址获得: