Apache spark 使用pyspark计算groupBy的总计数百分比_Apache Spark_Pyspark

Apache spark 使用pyspark计算groupBy的总计数百分比

apache-spark pyspark

Apache spark 使用pyspark计算groupBy的总计数百分比,apache-spark,pyspark,Apache Spark,Pyspark,我在pyspark中有以下代码，生成一个表，显示一列的不同值及其计数。我想用另一列显示每行占总计数的百分比。我该怎么做 difrgns = (df1 .groupBy("column_name") .count() .sort(desc("count")) .show()) 提前谢谢如果不喜欢评论中提到的窗口，那么举个例子作为替代，这是更好的选择： # Running in Databricks, not

我在pyspark中有以下代码，生成一个表，显示一列的不同值及其计数。我想用另一列显示每行占总计数的百分比。我该怎么做

difrgns = (df1
           .groupBy("column_name")
           .count()
           .sort(desc("count"))
           .show())

提前谢谢

如果不喜欢评论中提到的窗口，那么举个例子作为替代，这是更好的选择：

# Running in Databricks, not all stuff required
from pyspark.sql import Row
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import *
#from pyspark.sql.functions import col

data = [("A", "X", 2, 100), ("A", "X", 7, 100), ("B", "X", 10, 100),
        ("C", "X", 1, 100), ("D", "X", 50, 100), ("E", "X", 30, 100)]
rdd = sc.parallelize(data)

someschema = rdd.map(lambda x: Row(c1=x[0], c2=x[1], val1=int(x[2]), val2=int(x[3])))

df = sqlContext.createDataFrame(someschema)

tot = df.count()

df.groupBy("c1") \
  .count() \
  .withColumnRenamed('count', 'cnt_per_group') \
  .withColumn('perc_of_count_total', (F.col('cnt_per_group') / tot) * 100 ) \
  .show()

 +---+-------------+-------------------+
| c1|cnt_per_group|perc_of_count_total|
+---+-------------+-------------------+
|  E|            1| 16.666666666666664|
|  B|            1| 16.666666666666664|
|  D|            1| 16.666666666666664|
|  C|            1| 16.666666666666664|
|  A|            2|  33.33333333333333|
+---+-------------+-------------------+

我专注于Scala，这似乎更容易。也就是说，通过评论建议的解决方案使用窗口，这就是我在Scala中使用over（）时所做的。

您可以使用

groupby

和

agg

进行聚合。例如，对于以下数据帧：

+--------+-----+
|category|value|
+--------+-----+
|       a|    1|
|       b|    2|
|       a|    3|
+--------+-----+

您可以使用：

import pyspark.sql.functions as F

df.groupby('category').agg(
    (F.count('value')).alias('count'),
    (F.count('value') / df.count()).alias('percentage')
).show()

输出：

+--------+-----+------------------+
|category|count|        percentage|
+--------+-----+------------------+
|       b|    1|0.3333333333333333|
|       a|    2|0.6666666666666666|
+--------+-----+------------------+

或者，您可以使用SQL：

df.createOrReplaceTempView('df')

spark.sql(
    """
    SELECT category,
           COUNT(*) AS count,
           COUNT(*) / (SELECT COUNT(*) FROM df) AS ratio
    FROM df
    GROUP BY category
    """
).show()

更多“美化”输出，消除多余的小数并对其排序

import pyspark.sql.functions as func

data_fr \
.groupBy('col_name') \
.count() \
.withColumn('%', func.round((func.col('count')/count_cl)*100,2)) \
.orderBy('count', ascending=False) \
.show()

+--------------------+-----+----+
|col|u name | count |%|
+--------------------+-----+----+
|C.LQQQ | 30957 | 8.91|
|C.LQQQ | 29688 | 8.54|
|C-LQQQ | 29625 | 8.52|
|CLQQQQ | 29342 | 8.44|

。。。。。 +--------------------+-----+----+

仅显示前20行

最近有一个自我回答的问题应该适合您，我认为您需要首先广播您的

tot

变量。可以，但就我在实践中看到的而言，这不是强制性的。错误会被注意到的。