Mapreduce 列出pig中的关系

Mapreduce 列出pig中的关系,mapreduce,apache-pig,Mapreduce,Apache Pig,我有这样一份清单: a, 2 b, 1 a, 5 c, 5 d, 3 a, 3 我想把它转换成: a, 2,3,5 b, 1 c, 5 d, 3 换句话说,我需要找到与字母相关的数字 我的想法是,我可以过滤并得到一个唯一字母a、b、c、d的列表,然后对于每个字母,我需要找到相关的数字 我怎样才能找到所有相关的号码?我需要一个接一个地做吗?如果我有一个非常大的数据集,它会wokr吗?或者我可以用pig中的一些设施来完成这项工作。你能试试吗 输入: 笔迹: 输出:将存储在输出/零件*文件

我有这样一份清单:

a, 2
b, 1
a, 5
c, 5
d, 3
a, 3
我想把它转换成:

a,  2,3,5
b,  1
c,  5
d,  3
换句话说,我需要找到与字母相关的数字

我的想法是,我可以过滤并得到一个唯一字母a、b、c、d的列表,然后对于每个字母,我需要找到相关的数字

我怎样才能找到所有相关的号码?我需要一个接一个地做吗?如果我有一个非常大的数据集,它会wokr吗?或者我可以用pig中的一些设施来完成这项工作。

你能试试吗

输入:

笔迹:

输出:将存储在输出/零件*文件中

a, 2
b, 1
a, 5
c, 5
d, 3
a, 3
A = LOAD 'input' USING PigStorage(',') AS (col1:chararray,col2:chararray);
B = GROUP A BY col1;
C = FOREACH B {
                 sortedRow = ORDER A BY col2 ASC;
                 GENERATE group,FLATTEN(REPLACE(BagToString(sortedRow.$1.col2),'_\\s+',','));
              }
STORE C INTO 'output' USING PigStorage(',');
a, 2,3,5
b, 1
c, 5
d, 3