Hadoop 如何在apache pig中使用2 for循环

Hadoop 如何在apache pig中使用2 for循环,hadoop,apache-pig,Hadoop,Apache Pig,如何在Apache Pig中使用2 for循环 我的输入数据如下: 1 a 3 15 b 4 1 b 2 25 a 5 15 c 3 1 a 3 15 c 2 25 b 4 中间输出:对于a和b的1计数总数,类似于15和25 1 a 6 1 b 2 15 b 4 15 c 5 25 a 5 25 b 4 最终输出:需要1个最大计数 1 a 6 15 c 5 25 a 5 谢谢我在蜂箱里也有同样的问题。你能帮帮我吗? A = load 'test.input' using PigSto

如何在Apache Pig中使用2 for循环

我的输入数据如下:

1  a 3
15 b 4
1  b 2
25 a 5
15 c 3
1  a 3
15 c 2
25 b 4
中间输出:对于a和b的1计数总数,类似于15和25

1 a 6
1 b 2
15 b 4
15 c 5
25 a 5
25 b 4
最终输出:需要1个最大计数

1 a 6
15 c 5
25 a 5

谢谢我在蜂箱里也有同样的问题。你能帮帮我吗?
A = load 'test.input' using PigStorage() as (index:int, id:chararray, count:int);
B = GROUP A by (index, id);
C = FOREACH B GENERATE flatten(group), SUM(A.count) as sum;

store C into '/tmp/intermediate';

D = GROUP C by index;

E = FOREACH D {
    ORDERED_C = order C by sum DESC;
    LIMIT_C = LIMIT ORDERED_C 1;
    GENERATE FLATTEN(LIMIT_C);  -- flatten to take out the unnecessary bag
}
store E into '/tmp/final';