Api 如何将spark数据帧中的列(列表)合并到组中?

Api 如何将spark数据帧中的列(列表)合并到组中?,api,dataframe,apache-spark,pyspark,Api,Dataframe,Apache Spark,Pyspark,我想在列为列表的数据框中结合基于日期的列表。如何才能做到这一点 范例 Date words 2020-07-26 ["hello", "world"] 2020-07-26 ["hello", "Stack Overflow"] 结果 Date words 2020-07-26 ["hello","

我想在列为列表的数据框中结合基于日期的列表。如何才能做到这一点

范例

Date           words      

2020-07-26    ["hello", "world"]      

2020-07-26    ["hello", "Stack Overflow"]
结果

Date           words

2020-07-26    ["hello","world","hello","Stack Overflow"]
使用groupBy、flatten和collect_list函数

检查下面的代码

df.show(truncate=False)
+----------+-----------------------+
|date      |words                  |
+----------+-----------------------+
|2020-07-26|[hello, world]         |
|2020-07-26|[hello, Stack Overflow]|
+----------+-----------------------+
df \
.groupBy("date") \
.agg(flatten(collect_list(col("words")).alias("words"))
.show(truncate=False)
+----------+-------------------------------------+
|date      |words                                |
+----------+-------------------------------------+
|2020-07-26|[hello, world, hello, Stack Overflow]|
+----------+-------------------------------------+