使用分区打开选项运行dask to_拼花地板方法时松开柱

使用分区打开选项运行dask to_拼花地板方法时松开柱,dask,Dask,我有需要优化的数据,以便执行group\u by 目前,我在几个parquet文件(超过25亿行)中有数据,如下所示: ID1 | ID2 |位置| Aerplordva | AOAAATDRLVA |无 ASDFGHJHASA | QWEFRFASEEW |主页 我正在添加第三列,以便使用分区(以及附加分区)重新保存文件,这将有助于groupby df['ID4']=df.ID1.apply(lambda x:x[:2]) 当我查看df时,我看到这样的列 ID1 | ID2 |位置| ID4

我有需要优化的数据,以便执行
group\u by

目前,我在几个
parquet
文件(超过25亿行)中有数据,如下所示:
ID1 | ID2 |位置|
Aerplordva | AOAAATDRLVA |无
ASDFGHJHASA | QWEFRFASEEW |主页

我正在添加第三列,以便使用分区(以及
附加
分区)重新保存文件,这将有助于
groupby

df['ID4']=df.ID1.apply(lambda x:x[:2])

当我查看
df
时,我看到这样的列
ID1 | ID2 |位置| ID4
Aerplordva | Aoaaattdrlva |无| AE
ASDFGHJHASA | QWEFRFASEEW |主页| AS

但是当我运行下面的代码时,
ID4
列会发生变化
dd.to_拼花地板(path2newfile,df,compression='SNAPPY',partition_on=['ID4'],有_null=['Location'],固定的_text={'ID1':11,'ID2':11,'ID4':2}

进入
df2=dd.read\u拼花地板(路径2新文件)

ID1 | ID2 |位置| dir0
AERPLORDRVA | AOAAATDRLVA |无| ID4=AE
ASDFGHJHASA | QWEFRFASEEW | home | ID4=AS

有什么想法吗

我计划将
ID4
包含在
groupby
中,从而提高查询的效率
dfc=df.groupby(['ID4','ID1','ID2').count()


我在一个拥有24个内核和190GB的工作站上工作(尽管
dask
集群只能识别123.65GB)

这是解析目录名的一个错误:显然,自从添加了“钻取”式目录分区选项以来,您是第一个使用包含数字的字段名的人

修复程序在这里:并于2017年7月30日并入master,最终将发布


目前,您可以将列重命名为不包含数字。

作为补充说明,您的ID4列将作为类别类型返回,因为需要对数据进行分组。我不理解您所说的
类别类型是什么意思。[/code>[无法找到有关此问题的信息]-您可以参考任何相关链接吗?我从和中找到了一些信息,但我仍然无法理解各种文件配置。什么文件配置让您感到困惑?关于分类的评论:根据定义,列ID4有少量可能的值,加载后,数据类型相应栏中的“类别”为“类别”。