Hadoop 合并两个袋子，从猪的第一个袋子得到所有的田地_Hadoop_Apache Pig_Hcatalog

Hadoop 合并两个袋子，从猪的第一个袋子得到所有的田地

hadoop apache-pig

Hadoop 合并两个袋子，从猪的第一个袋子得到所有的田地,hadoop,apache-pig,hcatalog,Hadoop,Apache Pig,Hcatalog,我是新手。在这个问题上需要一些帮助我在pig中得到了两组包，从那里我想得到第一个包的所有字段，如果第二个包有相同字段的数据，则覆盖第一个包的数据列列表是动态的（列可以随时添加或删除）。在集合b中，我们可能会在另一个字段中获得当前为空的数据，如果是，那么我们需要用集合b中可用的数据覆盖集合a 列-唯一、类别、b、c、d、e、f、区域、g、h、日期、方向、指示器例如：输出： (1,{(1,test,,,,,,,,city,,,,,2020-06-08T18:31:09.000Z,west,

我是新手。在这个问题上需要一些帮助

我在pig中得到了两组包，从那里我想得到第一个包的所有字段，如果第二个包有相同字段的数据，则覆盖第一个包的数据

列列表是动态的（列可以随时添加或删除）。在集合b中，我们可能会在另一个字段中获得当前为空的数据，如果是，那么我们需要用集合b中可用的数据覆盖集合a

列-唯一、类别、b、c、d、e、f、区域、g、h、日期、方向、指示器

例如：

输出：

(1,{(1,test,,,,,,,,city,,,,,2020-06-08T18:31:09.000Z,west,,,,,,,,,,,,,A)},{(1,,,,,,,,,,,,,,2020-09-08T19:31:09.000Z,,,,,,,,,,,,,,N)})
    
(2,{(2,test2,,,,,,,,dist,,,,,2020-08-02T13:06:16.000Z,east,,,,,,,,,,,,A)},{(2,,,,,,,,,,,,,,2020-09-08T18:31:09.000Z,,,,,,,,,,,,,,N)})

(1,test,,,,,,,,city,,,,,2020-09-08T19:31:09.000Z,west,,,,,,,,,,,,,N)
(2,test2,,,,,,,,dist,,,,,2020-09-08T18:31:09.000Z,east,,,,,,,,,,,,N)

预期结果：

(1,{(1,test,,,,,,,,city,,,,,2020-06-08T18:31:09.000Z,west,,,,,,,,,,,,,A)},{(1,,,,,,,,,,,,,,2020-09-08T19:31:09.000Z,,,,,,,,,,,,,,N)})
    
(2,{(2,test2,,,,,,,,dist,,,,,2020-08-02T13:06:16.000Z,east,,,,,,,,,,,,A)},{(2,,,,,,,,,,,,,,2020-09-08T18:31:09.000Z,,,,,,,,,,,,,,N)})

(1,test,,,,,,,,city,,,,,2020-09-08T19:31:09.000Z,west,,,,,,,,,,,,,N)
(2,test2,,,,,,,,dist,,,,,2020-09-08T18:31:09.000Z,east,,,,,,,,,,,,N)

我能够在以下条件下实现预期输出

final=FOREACH所有_数据生成展平（$1），展平（$2.（区域））作为区域，展平（$2.（指标））作为指标