Hbase 在pig中连接多个记录
我想使用Pig连接所有记录。 使用“pigStorage”和“-tagFile”标签加载数据后,我的数据如下所示:Hbase 在pig中连接多个记录,hbase,apache-pig,user-defined-functions,Hbase,Apache Pig,User Defined Functions,我想使用Pig连接所有记录。 使用“pigStorage”和“-tagFile”标签加载数据后,我的数据如下所示: (filename, aaaaaaaaaaa) (filename, bbbbbbbbbbbbbb) 我喜欢的结果是: (filename, aaaaaaaaaaabbbbbbbbbbbbbb) 然后我可以将数据存储到HBase中,文件名为rowkey 任何建议都将不胜感激。根据文件名对数据进行分组,然后使用将所有行李合并为一个字符串 B = GROUP A BY filena
(filename, aaaaaaaaaaa)
(filename, bbbbbbbbbbbbbb)
我喜欢的结果是:
(filename, aaaaaaaaaaabbbbbbbbbbbbbb)
然后我可以将数据存储到HBase中,文件名为rowkey
任何建议都将不胜感激。根据文件名对数据进行分组,然后使用将所有行李合并为一个字符串
B = GROUP A BY filename;
C = FOREACH B GENERATE group,BagToString(A.$1,'');
DUMP C;
谢谢你的回复,我已经尝试过了,我得到了(filename,{(filename,aaaaaaa),(filename,bbbbbbbbbbb)}。我还试图删除元组中的filename,得到了(filename,{(aaaaaaaaa),(bbbbbbbbbbbb)}