Apache spark 如何分组而不重复-Apache Pig_Apache Spark_Hadoop_Apache Pig

Apache spark 如何分组而不重复-Apache Pig

apache-spark hadoop apache-pig

Apache spark 如何分组而不重复-Apache Pig,apache-spark,hadoop,apache-pig,Apache Spark,Hadoop,Apache Pig,我需要找到订单价值单价乘以产品数量。但是，我的结果显示order_id重复。如何删除重复，以便获得order_id和order值？感谢您的帮助！谢谢代码：我认为您需要更改： groupOrdersum = FOREACH groupOrder GENERATE (order_filter.ORDER_ID),SUM(order_filter.VALUE) as ORDERVALUE; 到我认为现在您正在生成分组的订单包ID，即值，而不是实际的键。请使用代码格式化程序使本文更具可读性。您可

我需要找到订单价值单价乘以产品数量。但是，我的结果显示order_id重复。如何删除重复，以便获得order_id和order值？感谢您的帮助！谢谢

代码：

我认为您需要更改：

groupOrdersum = FOREACH groupOrder GENERATE (order_filter.ORDER_ID),SUM(order_filter.VALUE) as ORDERVALUE;

到

我认为现在您正在生成分组的订单包ID，即值，而不是实际的键。

请使用代码格式化程序使本文更具可读性。您可以共享较小的输入和相应的输出吗。

({(10270),(10270)},1376.0) ({(10271)},48.0) ({(10272),(10272),(10272)},1455.9999694824219) ({(10273),(10273),(10273),(10273),(10273)},2142.399932861328) ({(10274),(10274)},538.5999908447266) ({(10275),(10275)},307.1999969482422) ({(10276),(10276)},420.0) ({(10277),(10277)},1200.8000183105469) ({(10278),(10278),(10278),(10278)},1488.7999877929688) ({(10279)},468.0)

groupOrdersum = FOREACH groupOrder GENERATE (order_filter.ORDER_ID),SUM(order_filter.VALUE) as ORDERVALUE;

groupOrdersum = FOREACH groupOrder GENERATE 
    group AS ORDERID,
    SUM(order_filter.VALUE) as ORDERVALUE;