String 在Pig中用两个稍有不同的键连接

String 在Pig中用两个稍有不同的键连接,string,join,merge,mapreduce,apache-pig,String,Join,Merge,Mapreduce,Apache Pig,mapreduce任务: 文件1中的键1是a1、a2、a3、a10、a11、a12; 文件2中的键2是persona1,persona1,persona2,persona3,persona12,persona12,persona3,persona11,persona10 Merge_file=按键1连接文件,按键2连接文件(如何编写此…) 既然第二个键有重复,这有关系吗 谢谢我的建议是为每个数据集创建一个新列并加入其中,例如: A = foreach file_one generate *, j

mapreduce任务:

文件1中的键1是a1、a2、a3、a10、a11、a12; 文件2中的键2是persona1,persona1,persona2,persona3,persona12,persona12,persona3,persona11,persona10

Merge_file=按键1连接文件,按键2连接文件(如何编写此…)

既然第二个键有重复,这有关系吗


谢谢

我的建议是为每个数据集创建一个新列并加入其中,例如:

A = foreach file_one generate *, join_key1 as SUBSTRING(key1, 1, 100);
B = foreach file_two generate *, join_key2 as SUBSTRING(key2, 7, 100);
C = join A by join_key1, B by join_key2;

其他字段与什么匹配?你想完成什么?