Python Pyspark-选择、分组和分析日志

Python Pyspark-选择、分组和分析日志,python,pandas,pyspark,Python,Pandas,Pyspark,这是我的桌子 User | eventid | timestamp ---------------------------- root | 100004 | 2020-07-02 12:01:40 test | 100001 | 2020-07-02 12:21:23 test | 100002 | 2020-07-02 13:22:56 test | 100003 | 2020-07-02 13:27:07 使用python读取事件日志表,首先为用户

这是我的桌子

 User    | eventid | timestamp
 ----------------------------
 root    | 100004 | 2020-07-02 12:01:40
 test    | 100001 | 2020-07-02 12:21:23
 test    | 100002 | 2020-07-02 13:22:56
 test    | 100003 | 2020-07-02 13:27:07
使用python读取事件日志表,首先为用户分组日志,然后如果分组日志有3个EventID(10000100002和100003),并且如果事件按顺序发生(第一个:100001,第二个:100002和第三个:100003),则为该关联事件创建日志

日志是:

"Correlation id: Cor101 user: User eventid: 100001,100002,100003 time : 2020-07-02 13:28:00

这是任务,到目前为止你想出了什么?我可以对用户进行分组,看看是否发生了3个事件,但无法比较3个事件中的日期时间这是任务,到目前为止你想出了什么?我可以对用户进行分组,看看是否发生了3个事件,但无法比较3个事件中的日期时间