Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop映射减少反向索引检索行号_Hadoop_Mapreduce_Inverted Index - Fatal编程技术网

Hadoop映射减少反向索引检索行号

Hadoop映射减少反向索引检索行号,hadoop,mapreduce,inverted-index,Hadoop,Mapreduce,Inverted Index,我正在尝试使用Hadoop Map Reduce构建一个反向索引搜索,作为输入文本文件,并尝试实现以下输出:word:(文件1,行1,行2,…)(文件4,行1,行2,…)经过几个小时的研究,我在网上找到了解决方案: 当通过映射方法进行拆分时,需要一个自定义的RecordReader类以及一个自定义的FileInputFileFormat,以便将行号设置为键。在RecordReader实现中,可以声明自定义字段,并且可以完全管理输入文件的读取 在这种情况下,添加一个名为lineNumber的新i

我正在尝试使用Hadoop Map Reduce构建一个反向索引搜索,作为输入文本文件,并尝试实现以下输出:word:(文件1,行1,行2,…)(文件4,行1,行2,…)

经过几个小时的研究,我在网上找到了解决方案:

当通过映射方法进行拆分时,需要一个自定义的
RecordReader
类以及一个自定义的
FileInputFileFormat
,以便将行号设置为键。在
RecordReader
实现中,可以声明自定义字段,并且可以完全管理输入文件的读取

在这种情况下,添加一个名为
lineNumber
的新
int
字段(例如在
RecordReader
自定义实现中)就足够了,并在每次读取一行时将其递增(
nextKeyValue()
方法)