集成Nutch1.4和Solr时,具体的输出是什么?
当我集成Nutch1.4和solr时,我注意到有两组输出 我认为我的网站中的工作流可能是这样的: 1、Nutch-1.4对网站进行爬网并生成三个文件夹:“crawler/crawldb”、“crawler/linkdb”、“crawler/segments” 2、Solr为文件夹“crawler/”编制索引,并生成自己的文件夹“data/index”、“data/spellchecker” 这里总共有五个文件夹集成Nutch1.4和Solr时,具体的输出是什么?,solr,lucene,search-engine,nutch,Solr,Lucene,Search Engine,Nutch,当我集成Nutch1.4和solr时,我注意到有两组输出 我认为我的网站中的工作流可能是这样的: 1、Nutch-1.4对网站进行爬网并生成三个文件夹:“crawler/crawldb”、“crawler/linkdb”、“crawler/segments” 2、Solr为文件夹“crawler/”编制索引,并生成自己的文件夹“data/index”、“data/spellchecker” 这里总共有五个文件夹 我想知道的是: 1、 这五个文件夹到底包含什么 2、 “PageRank(或Li
我想知道的是: 1、 这五个文件夹到底包含什么 2、 “PageRank(或LinkRank)”在哪里工作 3、 Nutch是否为页面编制索引,solr是否再次为其编制索引 非常感谢。关于问题1:这五个文件夹究竟包含哪些内容? 以下是来自以下网站的详细信息: 爬网数据库,或crawldb。其中包含Nutch已知的每个URL的信息,包括是否获取了该URL,如果是,何时获取 链接数据库或链接数据库。其中包含每个URL的已知链接列表,包括源URL和链接的锚文本 一组分段。每个段都是作为一个单元获取的一组URL。段是具有以下子目录的目录: