Apache spark 火花值_计数
类似于的功能将允许我模拟Spark中Pandas的Apache spark 火花值_计数,apache-spark,apache-spark-sql,apache-spark-dataset,Apache Spark,Apache Spark Sql,Apache Spark Dataset,类似于的功能将允许我模拟Spark中Pandas的df.series.value\u counts()功能: 结果对象将按降序排列,以便第一个 元素是最常出现的元素。不包括NA值 默认情况下。() 我很好奇,对于Spark中的数据帧,这是否可以实现得更好/更简单。这只是一个基本的聚合,不是吗 df.groupBy($"value").count.orderBy($"count".desc) 熊猫: 将熊猫作为pd导入 pd.系列([1,2,2,3,3,4])。值_计数() 23 3 2
df.series.value\u counts()
功能:
结果对象将按降序排列,以便第一个
元素是最常出现的元素。不包括NA值
默认情况下。()
我很好奇,对于Spark中的数据帧,这是否可以实现得更好/更简单。这只是一个基本的聚合,不是吗
df.groupBy($"value").count.orderBy($"count".desc)
熊猫:
将熊猫作为pd导入
pd.系列([1,2,2,3,3,4])。值_计数()
23
3 2
4 1
1 1
数据类型:int64
Spark SQL:
Seq(1,2,2,3,3,4).toDF(“值”)
.groupBy($“value”).count.orderBy($“count”.desc)
+-----+-----+
|值|计数|
+-----+-----+
| 2| 3|
| 3| 2|
| 1| 1|
| 4| 1|
+-----+-----+
如果您想包括其他分组列(如“键”),只需将这些列放入groupBy
:
df.groupBy($"key", $"value").count.orderBy($"count".desc)
我试图在udf中使用它来将其应用于dask数据帧的每一行,但是当我定义udf时,由于$symbol,我在语法中得到了一个错误