Hadoop 使用Pig脚本查找公共元素

Hadoop 使用Pig脚本查找公共元素,hadoop,apache-pig,Hadoop,Apache Pig,我是Hadoop世界的新手,目前正在探索Pig脚本。我必须编写一个pig脚本,找出两个文件之间的公共数据 例如 SampleFileA包含以下数据: 1,A,M 2、B、25、F 上述数据将第1列描述为ID,第2列描述为Name,第3列描述为Age,第4列描述为Gender SampleFileB具有相同的数据: 1,A,M 2、B、25、F 我尝试了各种连接,但没有得到预期的输出,因为第一条记录的第3列中存在空白或null 预期输出为: (2,B,25,F),(2,B,25,F) (1,A,M

我是Hadoop世界的新手,目前正在探索Pig脚本。我必须编写一个pig脚本,找出两个文件之间的公共数据

例如

SampleFileA包含以下数据:

1,A,M

2、B、25、F

上述数据将第1列描述为ID,第2列描述为Name,第3列描述为Age,第4列描述为Gender

SampleFileB具有相同的数据:

1,A,M

2、B、25、F

我尝试了各种连接,但没有得到预期的输出,因为第一条记录的第3列中存在空白或null

预期输出为:

(2,B,25,F),(2,B,25,F) (1,A,M),(1,A,M)

但我得到的是:

(2,B,25,F),(2,B,25,F), ,(1,A,M)

我不确定输出中的空数据来自何处


非常感谢您的帮助。

您能粘贴您的Pig脚本吗?脚本不返回第一条记录的原因是它们不一样
1,A,,M
不一定从另一个文件=
1,A,,M
。它们都缺少年龄记录,但它们缺少的记录可能不同(除非
age
没有改变并且
id
是唯一的,然后只需
JOIN
by
id