Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Solr 使用Nutch 1.9获取清晰的内容(无标记)_Solr_Web Crawler_Nutch - Fatal编程技术网

Solr 使用Nutch 1.9获取清晰的内容(无标记)

Solr 使用Nutch 1.9获取清晰的内容(无标记),solr,web-crawler,nutch,Solr,Web Crawler,Nutch,使用Nutch1.9,我如何获得爬网页面的清晰内容(没有html标记),并以可读的形式保存.content。Solr是实现这一目标的方法,还是没有Solr就可以实现,以及如何实现 还有一个子问题,如何使用bin/crawl脚本控制爬行深度?bin/nutch crawl命令中有一个选项(和topN),但现在它已被弃用,不会执行。在nutch site.xml中添加此选项 <!-- tika properties to use BoilerPipe, according to Marcus

使用Nutch1.9,我如何获得爬网页面的清晰内容(没有html标记),并以可读的形式保存.content。Solr是实现这一目标的方法,还是没有Solr就可以实现,以及如何实现


还有一个子问题,如何使用bin/crawl脚本控制爬行深度?bin/nutch crawl命令中有一个选项(和topN),但现在它已被弃用,不会执行。

在nutch site.xml中添加此选项

<!-- tika properties to use BoilerPipe, according to Marcus Jelsma --> 
<property> 
  <name>tika.use_boilerpipe</name> 
  <value>true</value> 
</property> 
<property> 
  <name>tika.boilerpipe.extractor</name> 
  <value>ArticleExtractor</value> 
</property> 

提卡。使用锅炉管
真的
提卡,锅炉管,提取器
物品提取器
//这是给nutch 1.7的,我不确定1.9

使用jsoup获取纯文本