Api 如何将spark数据帧中的列(列表)合并到组中?
我想在列为列表的数据框中结合基于日期的列表。如何才能做到这一点 范例Api 如何将spark数据帧中的列(列表)合并到组中?,api,dataframe,apache-spark,pyspark,Api,Dataframe,Apache Spark,Pyspark,我想在列为列表的数据框中结合基于日期的列表。如何才能做到这一点 范例 Date words 2020-07-26 ["hello", "world"] 2020-07-26 ["hello", "Stack Overflow"] 结果 Date words 2020-07-26 ["hello","
Date words
2020-07-26 ["hello", "world"]
2020-07-26 ["hello", "Stack Overflow"]
结果
Date words
2020-07-26 ["hello","world","hello","Stack Overflow"]
使用groupBy、flatten和collect_list函数
检查下面的代码
df.show(truncate=False)
+----------+-----------------------+
|date |words |
+----------+-----------------------+
|2020-07-26|[hello, world] |
|2020-07-26|[hello, Stack Overflow]|
+----------+-----------------------+
df \
.groupBy("date") \
.agg(flatten(collect_list(col("words")).alias("words"))
.show(truncate=False)
+----------+-------------------------------------+
|date |words |
+----------+-------------------------------------+
|2020-07-26|[hello, world, hello, Stack Overflow]|
+----------+-------------------------------------+