Apache pig 具有不同架构的2个数据集之间的并集
我需要一个关于猪联盟的帮助: pig是否可能在具有不同模式的2个数据集之间执行联合 例如:Apache pig 具有不同架构的2个数据集之间的并集,apache-pig,Apache Pig,我需要一个关于猪联盟的帮助: pig是否可能在具有不同模式的2个数据集之间执行联合 例如: A = LOAD '/user/hdfs/file1' AS (a:int, b:int); B = LOAD '/user/hdfs/file2' AS (c:int, d:int, e:chararray, f:float); UNION ONSCHEMA A, B; 注意:数据集的架构不同。请参阅: 投入: 文件1: 文件2: 猪字: 结果: 转储C: 描述C: 是的,我们可以合并具有不同模式的
A = LOAD '/user/hdfs/file1' AS (a:int, b:int);
B = LOAD '/user/hdfs/file2' AS (c:int, d:int, e:chararray, f:float);
UNION ONSCHEMA A, B;
注意:数据集的架构不同。请参阅:
投入:
文件1:
文件2:
猪字:
结果:
转储C:
描述C:
是的,我们可以合并具有不同模式的两个别名。我已经举了一个例子来回答。
1,1
2,2
1,1,a,1.0
2,2,b,2.0
A = LOAD 'file1' USING PigStorage(',') AS (a:int, b:int);
B = LOAD 'file2' USING PigStorage(',') AS (c:int, d:int, e:chararray, f:float);
C = UNION ONSCHEMA A,B;
(1,1,,,,)
(2,2,,,,)
(,,1,1,a,1.0)
(,,2,2,b,2.0)
C: {a: int,b: int,c: int,d: int,e: chararray,f: float}