Apache spark 火花值_计数_Apache Spark_Apache Spark Sql_Apache Spark Dataset

Apache spark 火花值_计数

apache-spark

Apache spark 火花值_计数,apache-spark,apache-spark-sql,apache-spark-dataset,Apache Spark,Apache Spark Sql,Apache Spark Dataset,类似于的功能将允许我模拟Spark中Pandas的df.series.value\u counts（）功能：结果对象将按降序排列，以便第一个元素是最常出现的元素。不包括NA值默认情况下。（）我很好奇，对于Spark中的数据帧，这是否可以实现得更好/更简单。这只是一个基本的聚合，不是吗 df.groupBy($"value").count.orderBy($"count".desc) 熊猫：将熊猫作为pd导入 pd.系列（[1,2,2,3,3,4]）。值_计数（） 23 3 2

类似于的功能将允许我模拟Spark中Pandas的

df.series.value\u counts（）

功能：

结果对象将按降序排列，以便第一个元素是最常出现的元素。不包括NA值默认情况下。（）

我很好奇，对于Spark中的数据帧，这是否可以实现得更好/更简单。

这只是一个基本的聚合，不是吗

df.groupBy($"value").count.orderBy($"count".desc)

熊猫：

将熊猫作为pd导入
pd.系列（[1,2,2,3,3,4]）。值_计数（）

23
3    2
4    1
1    1
数据类型：int64

Spark SQL：

Seq（1,2,2,3,3,4）.toDF（“值”）
.groupBy（$“value”）.count.orderBy（$“count”.desc）

+-----+-----+
|值|计数|
+-----+-----+
|    2|    3|
|    3|    2|
|    1|    1|
|    4|    1|
+-----+-----+

如果您想包括其他分组列（如“键”），只需将这些列放入

groupBy

：

df.groupBy($"key", $"value").count.orderBy($"count".desc)

我试图在udf中使用它来将其应用于dask数据帧的每一行，但是当我定义udf时，由于$symbol，我在语法中得到了一个错误