使用分区打开选项运行dask to_拼花地板方法时松开柱_Dask

使用分区打开选项运行dask to_拼花地板方法时松开柱

dask

使用分区打开选项运行dask to_拼花地板方法时松开柱,dask,Dask,我有需要优化的数据，以便执行group\u by 目前，我在几个parquet文件（超过25亿行）中有数据，如下所示： ID1 | ID2 |位置| Aerplordva | AOAAATDRLVA |无 ASDFGHJHASA | QWEFRFASEEW |主页我正在添加第三列，以便使用分区（以及附加分区）重新保存文件，这将有助于groupby df['ID4']=df.ID1.apply（lambda x:x[:2]）当我查看df时，我看到这样的列 ID1 | ID2 |位置| ID4

我有需要优化的数据，以便执行

group\u by

目前，我在几个

parquet

我正在添加第三列，以便使用分区（以及

附加

分区）重新保存文件，这将有助于

groupby

df['ID4']=df.ID1.apply（lambda x:x[:2]）

当我查看

df

时，我看到这样的列
ID1 | ID2 |位置| ID4
Aerplordva | Aoaaattdrlva |无| AE
ASDFGHJHASA | QWEFRFASEEW |主页| AS

但是当我运行下面的代码时，

ID4

列会发生变化

dd.to_拼花地板（path2newfile，df，compression='SNAPPY'，partition_on=['ID4']，有_null=['Location']，固定的_text={'ID1'：11，'ID2'：11，'ID4'：2}

进入

df2=dd.read\u拼花地板（路径2新文件）

有什么想法吗

我计划将

ID4

包含在

groupby

中，从而提高查询的效率

dfc=df.groupby（['ID4'，'ID1'，'ID2'）.count（）

我在一个拥有24个内核和190GB的工作站上工作（尽管

dask

集群只能识别123.65GB）

这是解析目录名的一个错误：显然，自从添加了“钻取”式目录分区选项以来，您是第一个使用包含数字的字段名的人

修复程序在这里：并于2017年7月30日并入master，最终将发布

目前，您可以将列重命名为不包含数字。

作为补充说明，您的ID4列将作为类别类型返回，因为需要对数据进行分组。我不理解您所说的

类别类型是什么意思。[/code>[无法找到有关此问题的信息]-您可以参考任何相关链接吗？我从和中找到了一些信息，但我仍然无法理解各种文件配置。什么文件配置让您感到困惑？关于分类的评论：根据定义，列ID4有少量可能的值，加载后，数据类型相应栏中的“类别”为“类别”。