Java 有可能将Nutch Crawler与我现有的Lucene项目集成吗？_Java_Lucene_Web Crawler_Nutch_Heritrix

Java 有可能将Nutch Crawler与我现有的Lucene项目集成吗？

java lucene web-crawler

Java 有可能将Nutch Crawler与我现有的Lucene项目集成吗？,java,lucene,web-crawler,nutch,heritrix,Java,Lucene,Web Crawler,Nutch,Heritrix,我已经有一个使用Lucene3.5的项目了现在我需要提供网络搜索功能，但我不想导入整个Nutch项目所以我想知道，也许我只能使用Nutch的爬虫部分来抓取网站，并将它们编入Lucene风格的索引然后用我现有的Lucene搜索器搜索索引文件是否可以这样做，或者您有什么建议（Heritrix如何）？是的，可以使用您自己的lucene实现搜索nutch生成的索引。我在我们项目的wiki上写了一个简短的描述，我们使用nutch来抓取静态内容您可以在此处查看：比尔， Chris谢谢csupni

我已经有一个使用Lucene3.5的项目了

现在我需要提供网络搜索功能，但我不想导入整个Nutch项目

所以我想知道，也许我只能使用Nutch的爬虫部分来抓取网站，并将它们编入Lucene风格的索引

然后用我现有的Lucene搜索器搜索索引文件

是否可以这样做，或者您有什么建议（Heritrix如何）？

是的，可以使用您自己的lucene实现搜索nutch生成的索引。我在我们项目的wiki上写了一个简短的描述，我们使用nutch来抓取静态内容

您可以在此处查看：

比尔，

Chris

谢谢csupnig，但我注意到Lucene索引文件似乎与Nutch索引文件不同。Lucene索引是“.fdt”、.fdx”等。但是Nutch出来了“part-0000/data、part-0000/index”。一旦爬网完成，索引应该在Nutch_base_dir/your_crawl_dir/index中。据我所知，xxxx部分将在最后合并。