Apache spark 火花值_计数

Apache spark 火花值_计数,apache-spark,apache-spark-sql,apache-spark-dataset,Apache Spark,Apache Spark Sql,Apache Spark Dataset,类似于的功能将允许我模拟Spark中Pandas的df.series.value\u counts()功能: 结果对象将按降序排列,以便第一个 元素是最常出现的元素。不包括NA值 默认情况下。() 我很好奇,对于Spark中的数据帧,这是否可以实现得更好/更简单。这只是一个基本的聚合,不是吗 df.groupBy($"value").count.orderBy($"count".desc) 熊猫: 将熊猫作为pd导入 pd.系列([1,2,2,3,3,4])。值_计数() 23 3 2

类似于的功能将允许我模拟Spark中Pandas的
df.series.value\u counts()
功能:

结果对象将按降序排列,以便第一个 元素是最常出现的元素。不包括NA值 默认情况下。()


我很好奇,对于Spark中的数据帧,这是否可以实现得更好/更简单。

这只是一个基本的聚合,不是吗

df.groupBy($"value").count.orderBy($"count".desc)
熊猫:

将熊猫作为pd导入
pd.系列([1,2,2,3,3,4])。值_计数()
23
3    2
4    1
1    1
数据类型:int64
Spark SQL:

Seq(1,2,2,3,3,4).toDF(“值”)
.groupBy($“value”).count.orderBy($“count”.desc)
+-----+-----+
|值|计数|
+-----+-----+
|    2|    3|
|    3|    2|
|    1|    1|
|    4|    1|
+-----+-----+
如果您想包括其他分组列(如“键”),只需将这些列放入
groupBy

df.groupBy($"key", $"value").count.orderBy($"count".desc)

我试图在udf中使用它来将其应用于dask数据帧的每一行,但是当我定义udf时,由于$symbol,我在语法中得到了一个错误