基于Hadoop MapReduce的Web Java爬虫

基于Hadoop MapReduce的Web Java爬虫,java,hadoop,mapreduce,web-crawler,Java,Hadoop,Mapreduce,Web Crawler,我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫,并在HBase中插入内容。 我尝试结合这两个教程: 但我不能理解这个概念。从页面中提取链接的逻辑放在哪里?映射器的输入数据类型是什么? 提前感谢只需使用即可-它基于Hadoop,拥有您需要的一切和更多功能。基本概念是将提取链接的逻辑放在mapper类中。mapper的输入数据将是您想要处理的URL列表。谢谢,但这是一个家庭作业,所以我需要开发自己的版本

我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫,并在HBase中插入内容。 我尝试结合这两个教程:

但我不能理解这个概念。从页面中提取链接的逻辑放在哪里?映射器的输入数据类型是什么?
提前感谢

只需使用即可-它基于Hadoop,拥有您需要的一切和更多功能。

基本概念是将提取链接的逻辑放在mapper类中。mapper的输入数据将是您想要处理的URL列表。谢谢,但这是一个家庭作业,所以我需要开发自己的版本