Apache spark spark数据帧采集平面图
我有一个DataFrame,它映射到一个case类,如下所示Apache spark spark数据帧采集平面图,apache-spark,spark-dataframe,Apache Spark,Spark Dataframe,我有一个DataFrame,它映射到一个case类,如下所示 case class Data(key :String, tokens : List[String], anothercol : String) 我希望得到按键分组的不同令牌。如果未列出令牌,我可以执行以下操作: dataDF.groupBy($"key").agg(collect_set($"tokens")) 我会变得很清楚,但有了这个列表,我该怎么做呢 提前感谢一个建议是在蜂箱中使用as。其思想是从令牌列表中的每个元素创建
case class Data(key :String, tokens : List[String], anothercol : String)
我希望得到按键分组的不同令牌。如果未列出令牌,我可以执行以下操作:
dataDF.groupBy($"key").agg(collect_set($"tokens"))
我会变得很清楚,但有了这个列表,我该怎么做呢
提前感谢一个建议是在蜂箱中使用as。其思想是从令牌列表中的每个元素创建一行。然后您可以使用agg和collect\u集合
您可以编写sql来实现这一点,一个建议是在Hive中使用as。其思想是从令牌列表中的每个元素创建一行。然后您可以使用agg和collect\u集合 您可以编写一个sql来实现这一点