Java 有可能将Nutch Crawler与我现有的Lucene项目集成吗?

Java 有可能将Nutch Crawler与我现有的Lucene项目集成吗?,java,lucene,web-crawler,nutch,heritrix,Java,Lucene,Web Crawler,Nutch,Heritrix,我已经有一个使用Lucene3.5的项目了 现在我需要提供网络搜索功能,但我不想导入整个Nutch项目 所以我想知道,也许我只能使用Nutch的爬虫部分来抓取网站,并将它们编入Lucene风格的索引 然后用我现有的Lucene搜索器搜索索引文件 是否可以这样做,或者您有什么建议(Heritrix如何)?是的,可以使用您自己的lucene实现搜索nutch生成的索引。我在我们项目的wiki上写了一个简短的描述,我们使用nutch来抓取静态内容 您可以在此处查看: 比尔, Chris谢谢csupni

我已经有一个使用Lucene3.5的项目了

现在我需要提供网络搜索功能,但我不想导入整个Nutch项目

所以我想知道,也许我只能使用Nutch的爬虫部分来抓取网站,并将它们编入Lucene风格的索引

然后用我现有的Lucene搜索器搜索索引文件


是否可以这样做,或者您有什么建议(Heritrix如何)?

是的,可以使用您自己的lucene实现搜索nutch生成的索引。我在我们项目的wiki上写了一个简短的描述,我们使用nutch来抓取静态内容

您可以在此处查看:

比尔,
Chris

谢谢csupnig,但我注意到Lucene索引文件似乎与Nutch索引文件不同。Lucene索引是“.fdt”、.fdx”等。但是Nutch出来了“part-0000/data、part-0000/index”。一旦爬网完成,索引应该在Nutch_base_dir/your_crawl_dir/index中。据我所知,xxxx部分将在最后合并。