Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/assembly/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark spark数据帧采集平面图_Apache Spark_Spark Dataframe - Fatal编程技术网

Apache spark spark数据帧采集平面图

Apache spark spark数据帧采集平面图,apache-spark,spark-dataframe,Apache Spark,Spark Dataframe,我有一个DataFrame,它映射到一个case类,如下所示 case class Data(key :String, tokens : List[String], anothercol : String) 我希望得到按键分组的不同令牌。如果未列出令牌,我可以执行以下操作: dataDF.groupBy($"key").agg(collect_set($"tokens")) 我会变得很清楚,但有了这个列表,我该怎么做呢 提前感谢一个建议是在蜂箱中使用as。其思想是从令牌列表中的每个元素创建

我有一个DataFrame,它映射到一个case类,如下所示

case class Data(key :String, tokens : List[String], anothercol : String)
我希望得到按键分组的不同令牌。如果未列出令牌,我可以执行以下操作:

dataDF.groupBy($"key").agg(collect_set($"tokens")) 
我会变得很清楚,但有了这个列表,我该怎么做呢


提前感谢

一个建议是在蜂箱中使用as。其思想是从令牌列表中的每个元素创建一行。然后您可以使用agg和collect\u集合


您可以编写sql来实现这一点,一个建议是在Hive中使用as。其思想是从令牌列表中的每个元素创建一行。然后您可以使用agg和collect\u集合

您可以编写一个sql来实现这一点