如何使用dask/dask cudf将单个大型拼花地板文件读入多个分区?
我正在尝试使用如何使用dask/dask cudf将单个大型拼花地板文件读入多个分区?,dask,cudf,Dask,Cudf,我正在尝试使用dask\u cudf/dask读取单个大型parquet文件(大小>gpu大小),但它当前正在将其读取到单个分区中,我猜这是从文档字符串推断出的预期行为: dask.dataframe.read\u拼花地板(路径、列=None、过滤器=None、类别=None、索引=None、存储选项=None、引擎=auto、聚集统计=None、**kwargs): 将拼花地板文件读入Dask数据帧 这会将拼花地板数据目录读入Dask.dataframe,每个分区一个文件。 它在已排序的列中选
dask\u cudf
/dask
读取单个大型parquet
文件(大小>gpu大小),但它当前正在将其读取到单个分区中,我猜这是从文档字符串推断出的预期行为:
dask.dataframe.read\u拼花地板(路径、列=None、过滤器=None、类别=None、索引=None、存储选项=None、引擎=auto、聚集统计=None、**kwargs):
将拼花地板文件读入Dask数据帧
这会将拼花地板数据目录读入Dask.dataframe,每个分区一个文件。
它在已排序的列中选择索引(如果存在)。
是否有一个可以将其读入多个分区的解决方案 拼花地板数据集可以保存到单独的文件中。每个文件可能包含单独的行组。Dask数据帧将每个拼花地板行组读入一个单独的分区 根据您所说的,您的数据集似乎只有一个行组。如果是这样的话,那么不幸的是达斯克在这里真的无能为力
您可能希望返回数据源,查看数据是如何保存的,并验证保存此数据集的任何进程都不会以创建非常大的行组的方式进行操作。这与pandas文档相关吗?它还使用单词partitioning,但它似乎是按列而不是按行。我正在尝试存储一个拼花数据集(使用pandas),这样我就可以用dask将其读取到多个分区中。我有
pyarrow.parquet.ParquetFile(“/tmp/test2.parquet”)。num_row\u groups==10
,但dask.dataframe.read\parquet(/tmp/test2.parquet”)。npartitions==1
。它看起来像是将多个行组读入一个分区?如果是这样的话,我建议生成一个并在上发布一个问题。