集成Nutch1.4和Solr时，具体的输出是什么？_Solr_Lucene_Search Engine_Nutch

集成Nutch1.4和Solr时，具体的输出是什么？

solr lucene

集成Nutch1.4和Solr时，具体的输出是什么？,solr,lucene,search-engine,nutch,Solr,Lucene,Search Engine,Nutch,当我集成Nutch1.4和solr时，我注意到有两组输出我认为我的网站中的工作流可能是这样的： 1、Nutch-1.4对网站进行爬网并生成三个文件夹：“crawler/crawldb”、“crawler/linkdb”、“crawler/segments” 2、Solr为文件夹“crawler/”编制索引，并生成自己的文件夹“data/index”、“data/spellchecker” 这里总共有五个文件夹我想知道的是： 1、这五个文件夹到底包含什么 2、 “PageRank（或Li

当我集成Nutch1.4和solr时，我注意到有两组输出

我认为我的网站中的工作流可能是这样的：

1、Nutch-1.4对网站进行爬网并生成三个文件夹：“crawler/crawldb”、“crawler/linkdb”、“crawler/segments”

2、Solr为文件夹“crawler/”编制索引，并生成自己的文件夹“data/index”、“data/spellchecker”

这里总共有五个文件夹

我想知道的是：

1、这五个文件夹到底包含什么

2、 “PageRank（或LinkRank）”在哪里工作

3、 Nutch是否为页面编制索引，solr是否再次为其编制索引

非常感谢。

关于问题1：这五个文件夹究竟包含哪些内容？ 以下是来自以下网站的详细信息：

爬网数据库，或crawldb。其中包含Nutch已知的每个URL的信息，包括是否获取了该URL，如果是，何时获取

链接数据库或链接数据库。其中包含每个URL的已知链接列表，包括源URL和链接的锚文本

一组分段。每个段都是作为一个单元获取的一组URL。段是具有以下子目录的目录：

爬网将生成一组要获取的URL

抓取包含获取每个URL的状态

内容包含从每个URL检索的原始内容

解析文本包含每个URL的解析文本

parse_数据包含从每个URL解析的大纲链接和元数据

爬网解析包含用于更新爬网数据库的大纲链接URL

index文件夹包含从已爬网内容和linkdb创建的索引

拼写检查程序：这是为改进查询而生成的拼写检查索引。如果你想获得更多的知识，这些书值得一读。另见

问题2：“PageRank（或LinkRank）”在哪里工作？ 读和读。不确定是否有帮助，但会增加您的知识

问题3：Nutch是否为页面编制索引，solr是否再次为页面编制索引？ 爬网数据的索引由ApacheSolr而不是Nutch生成

这是： Nutch将解析过程中收集的所有数据委托给IndexingFilter扩展，该扩展生成要索引的数据。过滤器的输出是一个NutchDocument，它再次被委托给Nutch。然后，Nutch决定是否应根据映射文件对数据进行索引，该文件定义了NutchDocument字段将映射到SolrDocument字段，Nutch读取该文件