Apache spark 如何分组而不重复-Apache Pig

Apache spark 如何分组而不重复-Apache Pig,apache-spark,hadoop,apache-pig,Apache Spark,Hadoop,Apache Pig,我需要找到订单价值单价乘以产品数量。但是,我的结果显示order_id重复。如何删除重复,以便获得order_id和order值?感谢您的帮助!谢谢 代码: 我认为您需要更改: groupOrdersum = FOREACH groupOrder GENERATE (order_filter.ORDER_ID),SUM(order_filter.VALUE) as ORDERVALUE; 到 我认为现在您正在生成分组的订单包ID,即值,而不是实际的键。请使用代码格式化程序使本文更具可读性。您可

我需要找到订单价值单价乘以产品数量。但是,我的结果显示order_id重复。如何删除重复,以便获得order_id和order值?感谢您的帮助!谢谢

代码:


我认为您需要更改:

groupOrdersum = FOREACH groupOrder GENERATE (order_filter.ORDER_ID),SUM(order_filter.VALUE) as ORDERVALUE;


我认为现在您正在生成分组的订单包ID,即值,而不是实际的键。

请使用代码格式化程序使本文更具可读性。您可以共享较小的输入和相应的输出吗。
({(10270),(10270)},1376.0) ({(10271)},48.0) ({(10272),(10272),(10272)},1455.9999694824219) ({(10273),(10273),(10273),(10273),(10273)},2142.399932861328) ({(10274),(10274)},538.5999908447266) ({(10275),(10275)},307.1999969482422) ({(10276),(10276)},420.0) ({(10277),(10277)},1200.8000183105469) ({(10278),(10278),(10278),(10278)},1488.7999877929688) ({(10279)},468.0)
groupOrdersum = FOREACH groupOrder GENERATE (order_filter.ORDER_ID),SUM(order_filter.VALUE) as ORDERVALUE;
groupOrdersum = FOREACH groupOrder GENERATE 
    group AS ORDERID,
    SUM(order_filter.VALUE) as ORDERVALUE;