使用Dask从多个Python进程编写拼花文件

使用Dask从多个Python进程编写拼花文件,dask,parquet,fastparquet,Dask,Parquet,Fastparquet,可以用Python从不同的进程中编写相同的拼花文件夹吗 我使用的是fastparquet 这似乎是可行的,但我想知道,如果两个进程同时向它写入数据,那么\u元数据文件怎么可能没有冲突 此外,为了使其正常工作,我必须使用ignore_divisions=True,这对于以后读取拼花地板文件时获得快速性能来说并不理想,因为Dask会整合单独进程中的元数据,以便在其余进程完成后,它只写入\u metadata文件,而这是在单个线程中发生的 如果使用自己的多处理设置将单独的拼花地板文件写入单个文件夹,则

可以用Python从不同的进程中编写相同的拼花文件夹吗

我使用的是
fastparquet

这似乎是可行的,但我想知道,如果两个进程同时向它写入数据,那么
\u元数据
文件怎么可能没有冲突


此外,为了使其正常工作,我必须使用
ignore_divisions=True
,这对于以后读取拼花地板文件时获得快速性能来说并不理想,因为Dask会整合单独进程中的元数据,以便在其余进程完成后,它只写入
\u metadata
文件,而这是在单个线程中发生的


如果使用自己的多处理设置将单独的拼花地板文件写入单个文件夹,则每个文件通常都会写入单个数据文件,而不会写入元数据。您可以像Dask那样收集数据片段,也可以在数据文件准备好后整合元数据。

谢谢!在写入所有数据文件之后,您将如何创建元数据文件?或者创建一个空的dask数据帧并使用map_fn填充它可能更有效?但是我如何控制磁盘上的写入呢?没有一个函数,但是您可以从许多函数中的fastparquet.util.metadata开始