如何使用hadoop mapreduce程序删除单个文件中的重复值

如何使用hadoop mapreduce程序删除单个文件中的重复值,map,hadoop,mapreduce,Map,Hadoop,Mapreduce,如何使用hadoop mapreduce程序删除单个文件中的重复值而在输出中我需要唯一值例如:在文件中 第1行:您好,我是Ashok 第2行:hadoop框架的基础知识 第三行:您好,我是Ashok 从这个例子只需要输出唯一的值,即它应该打印第1行和第3行。。。如何做…这是没有计数的单词计数。 执行此操作的典型方法是按整条线分组,然后只输出减速器中的键。下面是一些伪代码: map(key, value): emit (value, null) reducer(key, iterator)


如何使用hadoop mapreduce程序删除单个文件中的重复值

而在输出中我需要唯一值

例如:在文件中

第1行:您好,我是Ashok

第2行:hadoop框架的基础知识

第三行:您好,我是Ashok


从这个例子只需要输出唯一的值,即它应该打印第1行和第3行。。。如何做…

这是没有计数的单词计数。

执行此操作的典型方法是按整条线分组,然后只输出减速器中的键。下面是一些伪代码:

map(key, value):
   emit (value, null)

reducer(key, iterator):
   emit (key, null)
注意,我只是将值作为映射器中的键输出。该值可以为null(即,
NullWriteable
,也可以使用整数或其他任何形式)


在减速机中,我不在乎看到多少,我只输出键。

这是没有计数的单词计数。

执行此操作的典型方法是按整条线分组,然后只输出减速器中的键。下面是一些伪代码:

map(key, value):
   emit (value, null)

reducer(key, iterator):
   emit (key, null)
注意,我只是将值作为映射器中的键输出。该值可以为null(即,
NullWriteable
,也可以使用整数或其他任何形式)


在减速机中,我不在乎看到多少,我只输出键。

我不需要任何计数。。。在输出中,它应该打印文件中的唯一值。。。不需要重复的值…我知道。。。这就是重点。“这是没有计数的字数。”想想看,应该可以使用减缩器作为组合器进行优化。正如Praveen Sripati所提到的,组合器会调用优化。为什么要犹豫接受答案?Ashok,这不能解决你的问题吗?我不需要任何计数。。。在输出中,它应该打印文件中的唯一值。。。不需要重复的值…我知道。。。这就是重点。“这是没有计数的字数。”想想看,应该可以使用减缩器作为组合器进行优化。正如Praveen Sripati所提到的,组合器会调用优化。为什么要犹豫接受答案?Ashok,这不能解决你的问题吗?