Hadoop映射减少反向索引检索行号
我正在尝试使用Hadoop Map Reduce构建一个反向索引搜索,作为输入文本文件,并尝试实现以下输出:word:(文件1,行1,行2,…)(文件4,行1,行2,…)经过几个小时的研究,我在网上找到了解决方案: 当通过映射方法进行拆分时,需要一个自定义的Hadoop映射减少反向索引检索行号,hadoop,mapreduce,inverted-index,Hadoop,Mapreduce,Inverted Index,我正在尝试使用Hadoop Map Reduce构建一个反向索引搜索,作为输入文本文件,并尝试实现以下输出:word:(文件1,行1,行2,…)(文件4,行1,行2,…)经过几个小时的研究,我在网上找到了解决方案: 当通过映射方法进行拆分时,需要一个自定义的RecordReader类以及一个自定义的FileInputFileFormat,以便将行号设置为键。在RecordReader实现中,可以声明自定义字段,并且可以完全管理输入文件的读取 在这种情况下,添加一个名为lineNumber的新i
RecordReader
类以及一个自定义的FileInputFileFormat
,以便将行号设置为键。在RecordReader
实现中,可以声明自定义字段,并且可以完全管理输入文件的读取
在这种情况下,添加一个名为lineNumber
的新int
字段(例如在RecordReader
自定义实现中)就足够了,并在每次读取一行时将其递增(nextKeyValue()
方法)