Python SQL样式在Dask系列或数据帧列上分解_Python_Dataframe_Explode_Series_Dask

Python SQL样式在Dask系列或数据帧列上分解

python dataframe dask

Python SQL样式在Dask系列或数据帧列上分解,python,dataframe,explode,series,dask,Python,Dataframe,Explode,Series,Dask,我有一个Dask系列，它包含一列值列表。我想执行SQL样式分解，为每个索引值和相应的列表元素创建一个新行。对于这个特殊问题，列表的长度都相同单行的示例：索引列 123[值1、值2、值3] 所需的转换：索引列 123value1 123value2 123价值3 任何关于如何实现这一点的建议都将不胜感激。在熊猫数据帧上，这可能看起来像 df.column.apply(pd.Series, 1).stack().reset_index(level=1, drop=True) 要对Dask数据

我有一个Dask系列，它包含一列值列表。我想执行SQL样式分解，为每个索引值和相应的列表元素创建一个新行。对于这个特殊问题，列表的长度都相同

单行的示例：

索引列
123[值1、值2、值3]

所需的转换：

索引列
123value1
123value2
123价值3

任何关于如何实现这一点的建议都将不胜感激。

在熊猫数据帧上，这可能看起来像

df.column.apply(pd.Series, 1).stack().reset_index(level=1, drop=True)

要对Dask数据帧执行此操作，您需要使用，对数据的每个分区执行完全相同的操作：

def func(df):
    return df.column.apply(pd.Series, 1).stack().reset_index(level=1, drop=True)
df.map_partitions(func)

对于一个系列，您不需要

.column

。非常感谢！令人惊叹的！如果要为“分解”列指定所需名称，请在重置索引（..）后将添加到“框架”（“所需分解列名称”）