Hadoop 使用Pig脚本查找公共元素_Hadoop_Apache Pig

Hadoop 使用Pig脚本查找公共元素

hadoop apache-pig

Hadoop 使用Pig脚本查找公共元素,hadoop,apache-pig,Hadoop,Apache Pig,我是Hadoop世界的新手，目前正在探索Pig脚本。我必须编写一个pig脚本，找出两个文件之间的公共数据例如 SampleFileA包含以下数据： 1，A，M 2、B、25、F 上述数据将第1列描述为ID，第2列描述为Name，第3列描述为Age，第4列描述为Gender SampleFileB具有相同的数据： 1，A，M 2、B、25、F 我尝试了各种连接，但没有得到预期的输出，因为第一条记录的第3列中存在空白或null 预期输出为：（2，B，25，F），（2，B，25，F）（1，A，M

我是Hadoop世界的新手，目前正在探索Pig脚本。我必须编写一个pig脚本，找出两个文件之间的公共数据

例如

SampleFileA包含以下数据：

1，A，M

2、B、25、F

上述数据将第1列描述为ID，第2列描述为Name，第3列描述为Age，第4列描述为Gender

SampleFileB具有相同的数据：

1，A，M

2、B、25、F

我尝试了各种连接，但没有得到预期的输出，因为第一条记录的第3列中存在空白或null

预期输出为：

（2，B，25，F），（2，B，25，F）（1，A，M），（1，A，M）

但我得到的是：

（2，B，25，F），（2，B，25，F），，（1，A，M）

我不确定输出中的空数据来自何处

非常感谢您的帮助。

您能粘贴您的Pig脚本吗？脚本不返回第一条记录的原因是它们不一样

1，A，，M

不一定从另一个文件=

1，A，，M

。它们都缺少年龄记录，但它们缺少的记录可能不同（除非

age

没有改变并且

id

是唯一的，然后只需

JOIN

id

）