Hadoop 清管器从一个袋子中选择，数据来自另一个袋子_Hadoop_Apache Pig

Hadoop 清管器从一个袋子中选择，数据来自另一个袋子

hadoop apache-pig

Hadoop 清管器从一个袋子中选择，数据来自另一个袋子,hadoop,apache-pig,Hadoop,Apache Pig,我是HADOOP和PIG的新手我有两个包： DUMP A: (1) (2) (4) DUMP B: (1,John,USA) (2,Richard,UK) (3,Ian,Ireland) (4,Simon,Canada) B包列出了每个人。包A有我感兴趣的。我相信有一种简单的方法可以让我感兴趣的人参与进来： (1,John,USA) (2,Richard,UK) (4,Simon,Canada) 有人能帮我摆脱痛苦吗提前感谢。您应该能够通过类似于以下命令的命令连接并显示这两个集合： J

我是HADOOP和PIG的新手

我有两个包：

DUMP A:
(1)
(2)
(4)

DUMP B:
(1,John,USA)
(2,Richard,UK)
(3,Ian,Ireland)
(4,Simon,Canada)

B包列出了每个人。包A有我感兴趣的。我相信有一种简单的方法可以让我感兴趣的人参与进来：

(1,John,USA)
(2,Richard,UK)
(4,Simon,Canada)

有人能帮我摆脱痛苦吗

提前感谢。

您应该能够通过类似于以下命令的命令连接并显示这两个集合：

JOINSET = join A by $0, B by $0;
DUMP JOINSET;

为了让这更容易理解，我会在最初加载数据集时将名称与“列”关联起来。您还可以通过foreach/generate命令进行过滤。大概是

INTEREST = foreach A generate $0 as interestID;
RECORDS = foreach B generate $0 as recordID, $1 as name, $2 as location;
JOINSET = join INTEREST by interestID, RECORDS by recordID;

将允许您通过“列名”而不是列索引加入