Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala spark如何处理非数值的聚合最大值?_Scala_Apache Spark_Apache Spark Sql - Fatal编程技术网

Scala spark如何处理非数值的聚合最大值?

Scala spark如何处理非数值的聚合最大值?,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我有一个数据框,其中包含以下数据 DF1 |value|condition| +-----+---------+ | 1 | Y | | 2 | Y | | 3 | Y | | 3 | N | | 3 | N | +---------------+ 我想了解如果聚合上有max,数据帧的结果会是什么 groupby(DF1).max(condition)它是否给出字符串的最大计数,即Y,如果是,如何根据字母顺序获得最

我有一个数据框,其中包含以下数据

DF1

|value|condition|
+-----+---------+
| 1   |   Y     |
| 2   |   Y     |
| 3   |   Y     |
| 3   |   N     |
| 3   |   N     |
+---------------+
我想了解如果聚合上有max,数据帧的结果会是什么

groupby(DF1).max(condition)它是否给出字符串的最大计数,即Y,如果是,如何根据字母顺序获得最大值

编辑--


这不适用于日期或任何其他数据类型,我希望它仅适用于字符串

scala> val df1 = Seq((1,"Y"),(2,"Y"),(3,"N"),(3,"Z")).toDF("value","condition")
df1: org.apache.spark.sql.DataFrame = [value: int, condition: string]

scala> df1.show
+-----+---------+
|value|condition|
+-----+---------+
|    1|        Y|
|    2|        Y|
|    3|        N|
|    3|        Z|
+-----+---------+


scala> df1.agg(max("condition")).show
+--------------+
|max(condition)|
+--------------+
|             Z|
+--------------+

我希望它专门用于字符串,其中提供的链接是date@user10465355,所以当申请max时,它会自动给出最高顺序的字母表?而不是字母表的出现?是的!这不是你想要的吗?是的!如果要获取要计算的字母表的出现次数,该怎么办?
df1.groupBy(“条件”).agg(count(“条件”)。show