正在寻找一种在spark/scala中计算数据帧频率分布的方法

正在寻找一种在spark/scala中计算数据帧频率分布的方法,scala,apache-spark,Scala,Apache Spark,我想使用spark和scala计算数据帧的频率分布(返回每列中最常见的元素及其出现的次数)。我曾尝试使用DataFrameStatFunctions库,但在筛选数据框中的数字类型列后,我无法应用库中的任何函数。创建自定义项的最佳方法是什么?您可以使用 val newDF=df.groupBy(“columnName”).count() newDF.show() 它将显示唯一条目的频率计数

我想使用spark和scala计算数据帧的频率分布(返回每列中最常见的元素及其出现的次数)。我曾尝试使用DataFrameStatFunctions库,但在筛选数据框中的数字类型列后,我无法应用库中的任何函数。创建自定义项的最佳方法是什么?

您可以使用

val newDF=df.groupBy(“columnName”).count()
newDF.show()

它将显示唯一条目的频率计数