Python Dask:迭代数据帧组(实现给定事件流的状态机)

Python Dask:迭代数据帧组(实现给定事件流的状态机),python,dask,dask-distributed,Python,Dask,Dask Distributed,给定每个键的事件流,我希望维护一些内部状态,并为每个事件发出状态历史记录。一个简单的实现只需按键将数据分块,按顺序迭代事件,在结构中维护一些内部状态,并在每次状态更改时发出一行 挑战是,我想在dask中这样做,在dask中,对行进行迭代是不可行的。在这种情况下,解决方案是否像df.groupBy(key).sort_values(by='event_date').apply(state_machine_func)那样简单,其中state_machine_func可以在数据帧上迭代?我不确定这是否

给定每个键的事件流,我希望维护一些内部状态,并为每个事件发出状态历史记录。一个简单的实现只需按键将数据分块,按顺序迭代事件,在结构中维护一些内部状态,并在每次状态更改时发出一行

挑战是,我想在dask中这样做,在dask中,对行进行迭代是不可行的。在这种情况下,解决方案是否像
df.groupBy(key).sort_values(by='event_date').apply(state_machine_func)
那样简单,其中
state_machine_func
可以在数据帧上迭代?我不确定这是否真的有效

示例数据:

df.head()
出[1]:
关键事件日期
01A 2019-01-01
1b 2019-02-01
202A 2019-01-15
32B 2019-04-15
2019-07-01号4楼
53K 2019-01-02
6 3 R 2019-02-01
7 3 Z 2019-02-02