Solr 使用Nutch 1.9获取清晰的内容（无标记）_Solr_Web Crawler_Nutch

Solr 使用Nutch 1.9获取清晰的内容（无标记）

solr web-crawler

Solr 使用Nutch 1.9获取清晰的内容（无标记）,solr,web-crawler,nutch,Solr,Web Crawler,Nutch,使用Nutch1.9，我如何获得爬网页面的清晰内容（没有html标记），并以可读的形式保存.content。Solr是实现这一目标的方法，还是没有Solr就可以实现，以及如何实现还有一个子问题，如何使用bin/crawl脚本控制爬行深度？bin/nutch crawl命令中有一个选项（和topN），但现在它已被弃用，不会执行。在nutch site.xml中添加此选项 <!-- tika properties to use BoilerPipe, according to Marcus

使用Nutch1.9，我如何获得爬网页面的清晰内容（没有html标记），并以可读的形式保存.content。Solr是实现这一目标的方法，还是没有Solr就可以实现，以及如何实现

还有一个子问题，如何使用bin/crawl脚本控制爬行深度？bin/nutch crawl命令中有一个选项（和topN），但现在它已被弃用，不会执行。

在nutch site.xml中添加此选项

<!-- tika properties to use BoilerPipe, according to Marcus Jelsma --> 
<property> 
  <name>tika.use_boilerpipe</name> 
  <value>true</value> 
</property> 
<property> 
  <name>tika.boilerpipe.extractor</name> 
  <value>ArticleExtractor</value> 
</property>


提卡。使用锅炉管
真的
提卡，锅炉管，提取器
物品提取器

//这是给nutch 1.7的，我不确定1.9

使用jsoup获取纯文本