基于Hadoop MapReduce的Web Java爬虫_Java_Hadoop_Mapreduce_Web Crawler

基于Hadoop MapReduce的Web Java爬虫

java hadoop mapreduce web-crawler

基于Hadoop MapReduce的Web Java爬虫,java,hadoop,mapreduce,web-crawler,Java,Hadoop,Mapreduce,Web Crawler,我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫，并在HBase中插入内容。我尝试结合这两个教程：但我不能理解这个概念。从页面中提取链接的逻辑放在哪里？映射器的输入数据类型是什么？提前感谢只需使用即可-它基于Hadoop，拥有您需要的一切和更多功能。基本概念是将提取链接的逻辑放在mapper类中。mapper的输入数据将是您想要处理的URL列表。谢谢，但这是一个家庭作业，所以我需要开发自己的版本

我想使用MapReduce架构实现一个基于Hadoop框架的java爬虫，并在HBase中插入内容。我尝试结合这两个教程：

但我不能理解这个概念。从页面中提取链接的逻辑放在哪里？映射器的输入数据类型是什么？

提前感谢

只需使用即可-它基于Hadoop，拥有您需要的一切和更多功能。

基本概念是将提取链接的逻辑放在mapper类中。mapper的输入数据将是您想要处理的URL列表。谢谢，但这是一个家庭作业，所以我需要开发自己的版本