Solr 使用Nutch 1.9获取清晰的内容(无标记)
使用Nutch1.9,我如何获得爬网页面的清晰内容(没有html标记),并以可读的形式保存.content。Solr是实现这一目标的方法,还是没有Solr就可以实现,以及如何实现Solr 使用Nutch 1.9获取清晰的内容(无标记),solr,web-crawler,nutch,Solr,Web Crawler,Nutch,使用Nutch1.9,我如何获得爬网页面的清晰内容(没有html标记),并以可读的形式保存.content。Solr是实现这一目标的方法,还是没有Solr就可以实现,以及如何实现 还有一个子问题,如何使用bin/crawl脚本控制爬行深度?bin/nutch crawl命令中有一个选项(和topN),但现在它已被弃用,不会执行。在nutch site.xml中添加此选项 <!-- tika properties to use BoilerPipe, according to Marcus
还有一个子问题,如何使用bin/crawl脚本控制爬行深度?bin/nutch crawl命令中有一个选项(和topN),但现在它已被弃用,不会执行。在nutch site.xml中添加此选项
<!-- tika properties to use BoilerPipe, according to Marcus Jelsma -->
<property>
<name>tika.use_boilerpipe</name>
<value>true</value>
</property>
<property>
<name>tika.boilerpipe.extractor</name>
<value>ArticleExtractor</value>
</property>
提卡。使用锅炉管
真的
提卡,锅炉管,提取器
物品提取器
//这是给nutch 1.7的,我不确定1.9
使用jsoup获取纯文本