Apache spark Pyspark如何将一列与数据帧中另一列计数的结果相乘？_Apache Spark_Pyspark_Apache Spark Sql_Pyspark Dataframes

Apache spark Pyspark如何将一列与数据帧中另一列计数的结果相乘？

apache-spark pyspark

Apache spark Pyspark如何将一列与数据帧中另一列计数的结果相乘？,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,我有这个DFsaleDF： +-----------+-------------+----------------+----------------+----------+------------+----------------+---+----------+-------------------+ |customer_id|customer_name| email_address|shipping address|product_id|product_name|product_Categ

我有这个DF

saleDF

：

+-----------+-------------+----------------+----------------+----------+------------+----------------+---+----------+-------------------+
|customer_id|customer_name|   email_address|shipping address|product_id|product_name|product_Category|qty|unit_price|          Timestamp|
+-----------+-------------+----------------+----------------+----------+------------+----------------+---+----------+-------------------+
|        301|       Jaison|jaison@gmail.com|       Bangalore|       402|      Laptop|     Electronics|  2|     28000|2017-03-10 07:29:00|
|        321|         Abji| Abhji@gmail.com|       Bangalore|       402|      Laptop|     Electronics|  2|     28000|2017-03-12 10:29:00|
|        302|          Tom|   tom@gmail.com|       Bangalore|       601|      Mobile|     Electronics|  1|     20000|2017-03-10 08:29:00|
|        303|       Thomas|thomas@gmail.com|         Chennai|       402|      Laptop|     Electronics|  2|     38000|2017-03-10 08:45:00|
|        307|        Vijay| vijay@gmail.com|         Chennai|       503|          TV|     Electronics|  1|     42000|2017-03-11 09:45:00|
|        310|       Thomas|thomas@gmail.com|         Chennai|       503|          TV|     Electronics|  1|     42000|2017-03-12 09:45:00|
|        308|        Menon| menon@gmail.com|       Hyderabad|       503|          TV|     Electronics|  2|     40000|2017-03-13 09:45:00|
+-----------+-------------+----------------+----------------+----------+------------+----------------+---+----------+-------------------+

我正在寻找一天内销售的产品总数。客户每天购买不同数量的产品因此，我们必须计算相同产品的总数量*数量

低于我试图得到的数字

sale_of_product_in_a_day =sales_df.groupBy(F.substring('Timestamp', 0,10).alias('Per Day'),'product_name').count()

这基本上给出了如下结果：

+----------+------------+-----+
|   Per Day|product_name|count|
+----------+------------+-----+
|2017-03-12|      Laptop|    1|
|2017-03-13|          TV|    1|
|2017-03-12|          TV|    1|
|2017-03-10|      Mobile|    1|
|2017-03-10|      Laptop|    2|
|2017-03-11|          TV|    1|
+----------+------------+-----+

以上结果基于相同产品的分组，不考虑“数量”列。。所以我需要根据客户当天购买的实际产品数量计算“数量”

因此，在这种情况下，“2017-03-10”日期的预期结果应该是“4”，而不是“2”，因为“笔记本电脑”的“数量”是4

预期那么，如何将一列与数据帧中的计数结果相乘呢？或者解决这个问题的方法是什么

如果有人能帮忙，我将不胜感激

谢谢

这应该是您的工作解决方案，只需使用groupBy（）
和sum（）

在这里创建DF 输入输出

你能检查一下并告诉我们这个解决方案是否对你有效吗？如果您能接受并投票，我们将不胜感激。谢谢@dsk。。它成功了。。因此，理想情况下，当我们对列进行分组时，我们可以对相关列应用求和。。对吧？这是正确的理解。。为什么我的答案被否决了：（你能帮我检查一下吗？@dsk，我不知道投票结果是什么。）你能帮我检查一下答案是否被否决了吗？或者让我知道。谢谢你只需要点击左上方的箭头按钮

|2017-03-10|      Laptop|    2| # should be ---> 4

    df = spark.createDataFrame([("2017-03-10","Laptop", 2),("2017-03-12","Laptop", 2),("2017-03-10","Mobile", 1),("2017-03-10","Laptop", 2),("2017-03-11","TV",1),("2017-03-12","TV",1),("2017-03-13","TV",2)],[ "col1","col2", "qty"])
df.show(truncate=False)
df_grp =df.groupBy("col1", "col2").agg(F.sum("qty").alias("tot_qty"))
df_grp.show()

    +----------+------+---+
|col1      |col2  |qty|
+----------+------+---+
|2017-03-10|Laptop|2  |
|2017-03-12|Laptop|2  |
|2017-03-10|Mobile|1  |
|2017-03-10|Laptop|2  |
|2017-03-11|TV    |1  |
|2017-03-12|TV    |1  |
|2017-03-13|TV    |2  |
+----------+------+---+

+----------+------+-------+
|      col1|  col2|tot_qty|
+----------+------+-------+
|2017-03-12|Laptop|      2|
|2017-03-13|    TV|      2|
|2017-03-12|    TV|      1|
|2017-03-10|Mobile|      1|
|2017-03-10|Laptop|      4|
|2017-03-11|    TV|      1|
+----------+------+-------+