Hadoop 在PIG中查找元组中的非相邻重复值

Hadoop 在PIG中查找元组中的非相邻重复值,hadoop,mapreduce,apache-pig,Hadoop,Mapreduce,Apache Pig,有没有一种方法可以丢弃具有重复的非相邻值而不是相邻值的元组 给定元组列表: (1,2,3) (1,1,2) (1,2,1) (2,2,1,2) 想要这些: (1,2,3) (1,1,2) (1,2,1) (2,2,1,2) 不要这些: (1,2,3) (1,1,2) (1,2,1) (2,2,1,2) 正在考虑记录元组中每个值的索引。按值分组。然后计算索引范围是否大于每个值组的大小。有趣!遇到类似的问题,这家伙最终写了UDF。你可能想和他谈谈。

有没有一种方法可以丢弃具有重复的非相邻值而不是相邻值的元组

给定元组列表:

(1,2,3)

(1,1,2)

(1,2,1)

(2,2,1,2)
想要这些:

(1,2,3)

(1,1,2)
(1,2,1)

(2,2,1,2) 
不要这些:

(1,2,3)

(1,1,2)
(1,2,1)

(2,2,1,2) 

正在考虑记录元组中每个值的索引。按值分组。然后计算索引范围是否大于每个值组的大小。有趣!遇到类似的问题,这家伙最终写了UDF。你可能想和他谈谈。