Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/296.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache pig 如何通过一组ID筛选别名?_Apache Pig - Fatal编程技术网

Apache pig 如何通过一组ID筛选别名?

Apache pig 如何通过一组ID筛选别名?,apache-pig,Apache Pig,我有一个巨大的别名巨大,它有一个字段ID。 我还有一个别名COUNTS,由ID索引。 我想创建一个别名FILTERED,该别名与magng相同,但只包含IDs和小计数,例如: A = join HUGE by ID, COUNTS by ID; B = filter A by COUNTS::N < 1000; FILTERED = foreach B generate HIGE::*; C = foreach (filter COUNTS by N >= 1000) genera

我有一个巨大的别名
巨大
,它有一个字段
ID
。 我还有一个别名
COUNTS
,由
ID
索引。 我想创建一个别名
FILTERED
,该别名与
magng
相同,但只包含
ID
s和小计数,例如:

A = join HUGE by ID, COUNTS by ID;
B = filter A by COUNTS::N < 1000;
FILTERED = foreach B generate HIGE::*;
C = foreach (filter COUNTS by N >= 1000) generate ID;
FILTERED = filter HUGE by ID not in C;
这里的C相对较小(例如,10k行)

如何执行此操作?

由于
C
(计数为
N>=1000
行)非常小,因此可以使用a,以便在内存中执行,而无需还原阶段。这将为您使用
maging
执行的任何其他操作添加最小的处理


*请注意,在您的示例中,您按
N>=1000进行过滤,但您表示希望
ID
s具有小计数。不确定哪些是您想要的。

1。我想要那些不在
C
中的。2.与
C
的联接必须是外部联接,并且与复制联接不兼容。您仍然可以将复制联接与左联接一起使用。如果您的问题已得到回答,但答案为您提出了另一个问题,则最好提出一个新问题,而不是编辑原始问题。@WinnieNicklaus:您是对的,对不起。请看一看