Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
集成Nutch1.4和Solr时,具体的输出是什么?_Solr_Lucene_Search Engine_Nutch - Fatal编程技术网

集成Nutch1.4和Solr时,具体的输出是什么?

集成Nutch1.4和Solr时,具体的输出是什么?,solr,lucene,search-engine,nutch,Solr,Lucene,Search Engine,Nutch,当我集成Nutch1.4和solr时,我注意到有两组输出 我认为我的网站中的工作流可能是这样的: 1、Nutch-1.4对网站进行爬网并生成三个文件夹:“crawler/crawldb”、“crawler/linkdb”、“crawler/segments” 2、Solr为文件夹“crawler/”编制索引,并生成自己的文件夹“data/index”、“data/spellchecker” 这里总共有五个文件夹 我想知道的是: 1、 这五个文件夹到底包含什么 2、 “PageRank(或Li

当我集成Nutch1.4和solr时,我注意到有两组输出

我认为我的网站中的工作流可能是这样的:

1、Nutch-1.4对网站进行爬网并生成三个文件夹:“crawler/crawldb”、“crawler/linkdb”、“crawler/segments”

2、Solr为文件夹“crawler/”编制索引,并生成自己的文件夹“data/index”、“data/spellchecker”

这里总共有五个文件夹



我想知道的是:

1、 这五个文件夹到底包含什么

2、 “PageRank(或LinkRank)”在哪里工作

3、 Nutch是否为页面编制索引,solr是否再次为其编制索引

非常感谢。

关于问题1:这五个文件夹究竟包含哪些内容? 以下是来自以下网站的详细信息:

爬网数据库,或crawldb。其中包含Nutch已知的每个URL的信息,包括是否获取了该URL,如果是,何时获取

链接数据库或链接数据库。其中包含每个URL的已知链接列表,包括源URL和链接的锚文本

一组分段。每个段都是作为一个单元获取的一组URL。段是具有以下子目录的目录:

  • 爬网将生成一组要获取的URL
  • 抓取包含获取每个URL的状态
  • 内容包含从每个URL检索的原始内容
  • 解析文本包含每个URL的解析文本
  • parse_数据包含从每个URL解析的大纲链接和元数据
  • 爬网解析包含用于更新爬网数据库的大纲链接URL
  • index文件夹包含从已爬网内容和linkdb创建的索引

    拼写检查程序:这是为改进查询而生成的拼写检查索引。如果你想获得更多的知识,这些书值得一读。另见

    问题2:“PageRank(或LinkRank)”在哪里工作? 读和读。不确定是否有帮助,但会增加您的知识

    问题3:Nutch是否为页面编制索引,solr是否再次为页面编制索引? 爬网数据的索引由ApacheSolr而不是Nutch生成

    这是: Nutch将解析过程中收集的所有数据委托给IndexingFilter扩展,该扩展生成要索引的数据。过滤器的输出是一个NutchDocument,它再次被委托给Nutch。然后,Nutch决定是否应根据映射文件对数据进行索引,该文件定义了NutchDocument字段将映射到SolrDocument字段,Nutch读取该文件