Pyspark 列表的最小值
如何找到存储在单元格中的列表的最小值? 我可以做一个udf,但这感觉太过分了。Pyspark 列表的最小值,pyspark,Pyspark,如何找到存储在单元格中的列表的最小值? 我可以做一个udf,但这感觉太过分了。pyspark.sql.functions中的min函数仅对组有效(这是groupBy的结果) 如果您导入了pyspark.sql.functions,并且包含python的min,您仍然可以使用\uuuuuuuu内置项\uuuuu前缀访问它,例如: min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType()) 只需排序,然后取第一个值/行 df.s
pyspark.sql.functions
中的min
函数仅对组有效(这是groupBy的结果)
如果您导入了
pyspark.sql.functions
,并且包含python的min
,您仍然可以使用\uuuuuuuu内置项\uuuuu
前缀访问它,例如:
min_ = udf(lambda inarr: __builtins__.min(inarr), IntegerType())
只需排序,然后取第一个值/行
df.sort(col, ascending=True)
有没有一种方法可以完全不使用UDF?
df.sort(col, ascending=True)