Hadoop映射减少反向索引检索行号_Hadoop_Mapreduce_Inverted Index

Hadoop映射减少反向索引检索行号

hadoop mapreduce

Hadoop映射减少反向索引检索行号,hadoop,mapreduce,inverted-index,Hadoop,Mapreduce,Inverted Index,我正在尝试使用Hadoop Map Reduce构建一个反向索引搜索，作为输入文本文件，并尝试实现以下输出：word:（文件1，行1，行2，…）（文件4，行1，行2，…）经过几个小时的研究，我在网上找到了解决方案：当通过映射方法进行拆分时，需要一个自定义的RecordReader类以及一个自定义的FileInputFileFormat，以便将行号设置为键。在RecordReader实现中，可以声明自定义字段，并且可以完全管理输入文件的读取在这种情况下，添加一个名为lineNumber的新i

我正在尝试使用Hadoop Map Reduce构建一个反向索引搜索，作为输入文本文件，并尝试实现以下输出：word:（文件1，行1，行2，…）（文件4，行1，行2，…）

经过几个小时的研究，我在网上找到了解决方案：

当通过映射方法进行拆分时，需要一个自定义的

RecordReader

类以及一个自定义的

FileInputFileFormat

，以便将行号设置为键。在

RecordReader

实现中，可以声明自定义字段，并且可以完全管理输入文件的读取

在这种情况下，添加一个名为

lineNumber

的新

int

字段（例如在

RecordReader

自定义实现中）就足够了，并在每次读取一行时将其递增（

nextKeyValue（）

方法）