Web Nutch 2.2.1和HBase-我可以在Nutch-site.xml中创建新属性吗

Web Nutch 2.2.1和HBase-我可以在Nutch-site.xml中创建新属性吗,web,web-crawler,nutch,Web,Web Crawler,Nutch,我想用Nutch2.2.1开发一个主题网络机器人。我想用一些主题关键字创建一个新属性,如下所示: <property> <name>html.metatitle.keys</name> <value>movie,actor,firm</value> <description> </description> </property> 有两种不同的解决方案可用于解决您的问题

我想用Nutch2.2.1开发一个主题网络机器人。我想用一些主题关键字创建一个新属性,如下所示:

<property>
    <name>html.metatitle.keys</name>
    <value>movie,actor,firm</value>
    <description>
    </description>
</property>

有两种不同的解决方案可用于解决您的问题:

实现定制的HTMLPasseFilter插件来过滤页面 基于你想要的关键字。有关Nutch的更多信息 扩展点和为Nutch编写定制插件 在这些手册中:

使用索引器根据所需关键字过滤文档; 但是,如果您的数据库中有indexer,则此解决方案是可用的 系统设计架构。在这种情况下,ApacheSolr可以帮助您 用于在索引之前筛选文档。在这里,您必须实施 自定义的UpdateRequestProcessor。有关 Solr及其扩展点查看以下页面:


你这样做的目的是什么?我想在这个属性中使用关键字来简单地过滤网页,并通过说明配置来模仿其他属性的用法。