Python Pyspark中的比较列
我正在处理一个有n列的PySpark数据帧。我有一组m列(mPython Pyspark中的比较列,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我正在处理一个有n列的PySpark数据帧。我有一组m列(my,x)。否则(y), [col(c)if is instance(c,str)else c for c in cols] ) df=(sc.parallelize([(1,2,3),(2,1,2),(3,4,5)]) .toDF([“a”、“b”、“c”])) df.选择(行_max(“a”、“b”、“c”)。别名(“max”)) Spark 1.5+还提供最小值,最大值 from pyspark.sql.functions imp
col_1=[1,2,3],col_2=[2,1,4],col_3=[3,2,5]
输出:
col_4=max(col1,col_2,col_3)=[3,2,5]
正如前面所解释的,熊猫身上也有类似的东西
有没有办法在PySpark中实现这一点,或者我应该将PySpark df转换为Pandas df,然后执行这些操作?您可以在列列表上使用SQL表达式来减少:
从pyspark.sql.functions导入max作为max,col,当
从functools导入reduce
def行_最大值(*列):
回报率降低(
λx,y:当(x>y,x)。否则(y),
[col(c)if is instance(c,str)else c for c in cols]
)
df=(sc.parallelize([(1,2,3),(2,1,2),(3,4,5)])
.toDF([“a”、“b”、“c”]))
df.选择(行_max(“a”、“b”、“c”)。别名(“max”))
Spark 1.5+还提供最小值
,最大值
from pyspark.sql.functions import greatest
df.select(greatest("a", "b", "c"))
如果要保留max的名称,可以使用`structs:
from pyspark.sql.functions import struct, lit
def row_max_with_name(*cols):
cols_ = [struct(col(c).alias("value"), lit(c).alias("col")) for c in cols]
return greatest(*cols_).alias("greatest({0})".format(",".join(cols)))
maxs = df.select(row_max_with_name("a", "b", "c").alias("maxs"))
最后,您可以使用上面的内容查找选择“顶部”列:
Scala解决方案:
df = sc.parallelize(Seq((10, 10, 1 ), (200, 2, 20), (3, 30, 300), (400, 40, 4))).toDF("c1", "c2", "c3"))
df.rdd.map(row=>List[String](row(0).toString,row(1).toString,row(2).toString)).map(x=>(x(0),x(1),x(2),x.min)).toDF("c1","c2","c3","min").show
另一种简单的方法。假设下面的
df
是您的数据帧
df = sc.parallelize([(10, 10, 1 ), (200, 2, 20), (3, 30, 300), (400, 40, 4)]).toDF(["c1", "c2", "c3"])
df.show()
+---+---+---+
| c1| c2| c3|
+---+---+---+
| 10| 10| 1|
|200| 2| 20|
| 3| 30|300|
|400| 40| 4|
+---+---+---+
您可以按如下方式处理上述df,以获得预期结果
from pyspark.sql.functions import lit, min
df.select( lit('c1').alias('cn1'), min(df.c1).alias('c1'),
lit('c2').alias('cn2'), min(df.c2).alias('c2'),
lit('c3').alias('cn3'), min(df.c3).alias('c3')
)\
.rdd.flatMap(lambda r: [ (r.cn1, r.c1), (r.cn2, r.c2), (r.cn3, r.c3)])\
.toDF(['Columnn', 'Min']).show()
+-------+---+
|Columnn|Min|
+-------+---+
| c1| 3|
| c2| 2|
| c3| 1|
+-------+---+
您还可以使用pyspark内置: 我们可以使用 创建数据帧
df = spark.createDataFrame(
[[1,2,3], [2,1,2], [3,4,5]],
['col_1','col_2','col_3']
)
df.show()
+-----+-----+-----+
|col_1|col_2|col_3|
+-----+-----+-----+
| 1| 2| 3|
| 2| 1| 2|
| 3| 4| 5|
+-----+-----+-----+
解决方案
from pyspark.sql.functions import greatest
df2 = df.withColumn('max_by_rows', greatest('col_1', 'col_2', 'col_3'))
#Only if you need col
#from pyspark.sql.functions import col
#df2 = df.withColumn('max', greatest(col('col_1'), col('col_2'), col('col_3')))
df2.show()
+-----+-----+-----+-----------+
|col_1|col_2|col_3|max_by_rows|
+-----+-----+-----+-----------+
| 1| 2| 3| 3|
| 2| 1| 2| 2|
| 3| 4| 5| 5|
+-----+-----+-----+-----------+
你在做min(col1),而我想要min(row1),min(row2)。。以此类推……如果问题是关于获取每列的最大值,那么预期输出应该是[max(col_1)、max(col_2)、max(col_3)]=[3、4、5],这非常有用!你怎么找到第二大的呢?我想知道第二大专栏的名字,我想OP想要的是相反的。是否有一个等价的
most
功能?啊,它是最伟大的
——请参见下面的@ansev答案
from pyspark.sql.functions import least, col
df = df.withColumn('min', least(col('c1'), col('c2'), col('c3')))
df = spark.createDataFrame(
[[1,2,3], [2,1,2], [3,4,5]],
['col_1','col_2','col_3']
)
df.show()
+-----+-----+-----+
|col_1|col_2|col_3|
+-----+-----+-----+
| 1| 2| 3|
| 2| 1| 2|
| 3| 4| 5|
+-----+-----+-----+
from pyspark.sql.functions import greatest
df2 = df.withColumn('max_by_rows', greatest('col_1', 'col_2', 'col_3'))
#Only if you need col
#from pyspark.sql.functions import col
#df2 = df.withColumn('max', greatest(col('col_1'), col('col_2'), col('col_3')))
df2.show()
+-----+-----+-----+-----------+
|col_1|col_2|col_3|max_by_rows|
+-----+-----+-----+-----------+
| 1| 2| 3| 3|
| 2| 1| 2| 2|
| 3| 4| 5| 5|
+-----+-----+-----+-----------+