Hadoop 在PIG中查找元组中的非相邻重复值
有没有一种方法可以丢弃具有重复的非相邻值而不是相邻值的元组 给定元组列表:Hadoop 在PIG中查找元组中的非相邻重复值,hadoop,mapreduce,apache-pig,Hadoop,Mapreduce,Apache Pig,有没有一种方法可以丢弃具有重复的非相邻值而不是相邻值的元组 给定元组列表: (1,2,3) (1,1,2) (1,2,1) (2,2,1,2) 想要这些: (1,2,3) (1,1,2) (1,2,1) (2,2,1,2) 不要这些: (1,2,3) (1,1,2) (1,2,1) (2,2,1,2) 正在考虑记录元组中每个值的索引。按值分组。然后计算索引范围是否大于每个值组的大小。有趣!遇到类似的问题,这家伙最终写了UDF。你可能想和他谈谈。
(1,2,3)
(1,1,2)
(1,2,1)
(2,2,1,2)
想要这些:
(1,2,3)
(1,1,2)
(1,2,1)
(2,2,1,2)
不要这些:
(1,2,3)
(1,1,2)
(1,2,1)
(2,2,1,2)
正在考虑记录元组中每个值的索引。按值分组。然后计算索引范围是否大于每个值组的大小。有趣!遇到类似的问题,这家伙最终写了UDF。你可能想和他谈谈。