Web Nutch 2.2.1和;HBase-根据一些关键字推断是否将网页保存到HBase中

Web Nutch 2.2.1和;HBase-根据一些关键字推断是否将网页保存到HBase中,web,web-crawler,nutch,Web,Web Crawler,Nutch,函数是否在FetcherReducer.java中输出,用于在回迁阶段使用以下代码在HBase中存储网页 context.write(key, fit.page) 如果是,参数content是否为获取网页的内容?我可以用它和自己定义的关键词进行比较,从而放弃网页吗? 否则,您能否提出一种有效的方法,根据一些关键字推断是否将网页保存到HBase?您的意思是通过一些关键字过滤URL吗?或者你想用一些关键字过滤网站内容?用我在另一个问题中提到的一些关键字过滤网站内容。

函数
是否在
FetcherReducer.java
中输出
,用于在回迁阶段使用以下代码在HBase中存储网页

context.write(key, fit.page)  
如果是,参数
content
是否为获取网页的内容?我可以用它和自己定义的关键词进行比较,从而放弃网页吗?
否则,您能否提出一种有效的方法,根据一些关键字推断是否将网页保存到HBase?

您的意思是通过一些关键字过滤URL吗?或者你想用一些关键字过滤网站内容?用我在另一个问题中提到的一些关键字过滤网站内容。