Web Nutch 2.2.1和;HBase-根据一些关键字推断是否将网页保存到HBase中
函数Web Nutch 2.2.1和;HBase-根据一些关键字推断是否将网页保存到HBase中,web,web-crawler,nutch,Web,Web Crawler,Nutch,函数是否在FetcherReducer.java中输出,用于在回迁阶段使用以下代码在HBase中存储网页 context.write(key, fit.page) 如果是,参数content是否为获取网页的内容?我可以用它和自己定义的关键词进行比较,从而放弃网页吗? 否则,您能否提出一种有效的方法,根据一些关键字推断是否将网页保存到HBase?您的意思是通过一些关键字过滤URL吗?或者你想用一些关键字过滤网站内容?用我在另一个问题中提到的一些关键字过滤网站内容。
是否在FetcherReducer.java
中输出,用于在回迁阶段使用以下代码在HBase中存储网页
context.write(key, fit.page)
如果是,参数content
是否为获取网页的内容?我可以用它和自己定义的关键词进行比较,从而放弃网页吗?
否则,您能否提出一种有效的方法,根据一些关键字推断是否将网页保存到HBase?您的意思是通过一些关键字过滤URL吗?或者你想用一些关键字过滤网站内容?用我在另一个问题中提到的一些关键字过滤网站内容。