Python Pyspark中的比较列_Python_Apache Spark_Pyspark

Python Pyspark中的比较列

python apache-spark pyspark

Python Pyspark中的比较列,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我正在处理一个有n列的PySpark数据帧。我有一组m列（my，x）。否则（y）， [col（c）if is instance（c，str）else c for c in cols] ) df=（sc.parallelize（[（1,2,3），（2,1,2），（3,4,5）]） .toDF（[“a”、“b”、“c”]）） df.选择（行_max（“a”、“b”、“c”）。别名（“max”）） Spark 1.5+还提供最小值，最大值 from pyspark.sql.functions imp

我正在处理一个有n列的PySpark数据帧。我有一组m列（m 例如：

输入：PySpark数据帧包含：

col_1=[1,2,3]，col_2=[2,1,4]，col_3=[3,2,5]

输出：

col_4=max（col1，col_2，col_3）=[3,2,5]

正如前面所解释的，熊猫身上也有类似的东西

有没有办法在PySpark中实现这一点，或者我应该将PySpark df转换为Pandas df，然后执行这些操作？

您可以在列列表上使用SQL表达式来减少：

从pyspark.sql.functions导入max作为max，col，当
从functools导入reduce
def行_最大值（*列）：
回报率降低(
λx，y：当（x>y，x）。否则（y），
[col（c）if is instance（c，str）else c for c in cols]
)
df=（sc.parallelize（[（1,2,3），（2,1,2），（3,4,5）]）
.toDF（[“a”、“b”、“c”]））
df.选择（行_max（“a”、“b”、“c”）。别名（“max”））

Spark 1.5+还提供

最小值

，

最大值

from pyspark.sql.functions import greatest

df.select(greatest("a", "b", "c"))

如果要保留max的名称，可以使用`structs:

from pyspark.sql.functions import struct, lit

def row_max_with_name(*cols):
    cols_ = [struct(col(c).alias("value"), lit(c).alias("col")) for c in cols]
    return greatest(*cols_).alias("greatest({0})".format(",".join(cols)))

 maxs = df.select(row_max_with_name("a", "b", "c").alias("maxs"))

最后，您可以使用上面的内容查找选择“顶部”列：

Scala解决方案：

df = sc.parallelize(Seq((10, 10, 1 ), (200, 2, 20), (3, 30, 300), (400, 40, 4))).toDF("c1", "c2", "c3"))  

df.rdd.map(row=>List[String](row(0).toString,row(1).toString,row(2).toString)).map(x=>(x(0),x(1),x(2),x.min)).toDF("c1","c2","c3","min").show

另一种简单的方法。假设下面的

df

是您的数据帧

df = sc.parallelize([(10, 10, 1 ), (200, 2, 20), (3, 30, 300), (400, 40, 4)]).toDF(["c1", "c2", "c3"])
df.show()

+---+---+---+
| c1| c2| c3|
+---+---+---+
| 10| 10|  1|
|200|  2| 20|
|  3| 30|300|
|400| 40|  4|
+---+---+---+

您可以按如下方式处理上述df，以获得预期结果

from pyspark.sql.functions import lit, min

df.select( lit('c1').alias('cn1'), min(df.c1).alias('c1'),
           lit('c2').alias('cn2'), min(df.c2).alias('c2'),
           lit('c3').alias('cn3'), min(df.c3).alias('c3')
          )\
         .rdd.flatMap(lambda r: [ (r.cn1, r.c1), (r.cn2, r.c2), (r.cn3, r.c3)])\
         .toDF(['Columnn', 'Min']).show()

+-------+---+
|Columnn|Min|
+-------+---+
|     c1|  3|
|     c2|  2|
|     c3|  1|
+-------+---+

您还可以使用pyspark内置：

我们可以使用

创建数据帧

df = spark.createDataFrame(
    [[1,2,3], [2,1,2], [3,4,5]], 
    ['col_1','col_2','col_3']
)
df.show()
+-----+-----+-----+
|col_1|col_2|col_3|
+-----+-----+-----+
|    1|    2|    3|
|    2|    1|    2|
|    3|    4|    5|
+-----+-----+-----+

解决方案

from pyspark.sql.functions import greatest
df2 = df.withColumn('max_by_rows', greatest('col_1', 'col_2', 'col_3'))

#Only if you need col
#from pyspark.sql.functions import col
#df2 = df.withColumn('max', greatest(col('col_1'), col('col_2'), col('col_3')))
df2.show()

+-----+-----+-----+-----------+
|col_1|col_2|col_3|max_by_rows|
+-----+-----+-----+-----------+
|    1|    2|    3|          3|
|    2|    1|    2|          2|
|    3|    4|    5|          5|
+-----+-----+-----+-----------+

你在做min（col1），而我想要min（row1），min（row2）。。以此类推……如果问题是关于获取每列的最大值，那么预期输出应该是[max（col_1）、max（col_2）、max（col_3）]=[3、4、5]，这非常有用！你怎么找到第二大的呢？我想知道第二大专栏的名字，我想OP想要的是相反的。是否有一个等价的

most

功能？啊，它是

最伟大的

——请参见下面的@ansev答案

from pyspark.sql.functions import least, col
df = df.withColumn('min', least(col('c1'), col('c2'), col('c3')))

df = spark.createDataFrame(
    [[1,2,3], [2,1,2], [3,4,5]], 
    ['col_1','col_2','col_3']
)
df.show()
+-----+-----+-----+
|col_1|col_2|col_3|
+-----+-----+-----+
|    1|    2|    3|
|    2|    1|    2|
|    3|    4|    5|
+-----+-----+-----+

from pyspark.sql.functions import greatest
df2 = df.withColumn('max_by_rows', greatest('col_1', 'col_2', 'col_3'))

#Only if you need col
#from pyspark.sql.functions import col
#df2 = df.withColumn('max', greatest(col('col_1'), col('col_2'), col('col_3')))
df2.show()

+-----+-----+-----+-----------+
|col_1|col_2|col_3|max_by_rows|
+-----+-----+-----+-----------+
|    1|    2|    3|          3|
|    2|    1|    2|          2|
|    3|    4|    5|          5|
+-----+-----+-----+-----------+