Web Nutch 2.2.1和HBase-我可以在Nutch-site.xml中创建新属性吗
我想用Nutch2.2.1开发一个主题网络机器人。我想用一些主题关键字创建一个新属性,如下所示:Web Nutch 2.2.1和HBase-我可以在Nutch-site.xml中创建新属性吗,web,web-crawler,nutch,Web,Web Crawler,Nutch,我想用Nutch2.2.1开发一个主题网络机器人。我想用一些主题关键字创建一个新属性,如下所示: <property> <name>html.metatitle.keys</name> <value>movie,actor,firm</value> <description> </description> </property> 有两种不同的解决方案可用于解决您的问题
<property>
<name>html.metatitle.keys</name>
<value>movie,actor,firm</value>
<description>
</description>
</property>
有两种不同的解决方案可用于解决您的问题: 实现定制的HTMLPasseFilter插件来过滤页面 基于你想要的关键字。有关Nutch的更多信息 扩展点和为Nutch编写定制插件 在这些手册中: 使用索引器根据所需关键字过滤文档; 但是,如果您的数据库中有indexer,则此解决方案是可用的 系统设计架构。在这种情况下,ApacheSolr可以帮助您 用于在索引之前筛选文档。在这里,您必须实施 自定义的UpdateRequestProcessor。有关 Solr及其扩展点查看以下页面:
你这样做的目的是什么?我想在这个属性中使用关键字来简单地过滤网页,并通过说明配置来模仿其他属性的用法。