mapreduce中是否有索引器的Java实现?

mapreduce中是否有索引器的Java实现?,java,mapreduce,information-retrieval,Java,Mapreduce,Information Retrieval,我有一个URL列表,我想下载它们以创建webtrec格式的索引。我发现了一个名为MapReduce(ApacheHadoop)的有用框架,但我想知道是否有java实现我想要做的事情。或者可能是一个很好的例子 谢谢大家! MapReduce模式是一种用于在多个步骤中进行可并行化、CPU限制的计算的模式。下载和抓取网页是一项I/O操作。因此,您应该区分这两种操作 因此,当性能非常重要时,您应该首先使用队列和异步I/O之类的工具来下载网站。在第二步中,您可以使用MapReduce构建实际索引 Hado

我有一个URL列表,我想下载它们以创建webtrec格式的索引。我发现了一个名为MapReduce(ApacheHadoop)的有用框架,但我想知道是否有java实现我想要做的事情。或者可能是一个很好的例子


谢谢大家!

MapReduce模式是一种用于在多个步骤中进行可并行化、CPU限制的计算的模式。下载和抓取网页是一项I/O操作。因此,您应该区分这两种操作

因此,当性能非常重要时,您应该首先使用队列和异步I/O之类的工具来下载网站。在第二步中,您可以使用MapReduce构建实际索引


Hadoop是一种可能性,但如果您不是针对大规模应用,Fork/Join和akka等框架也可能适用。

您可能需要研究Nutch-