在Hadoop集群中运行web抓取

在Hadoop集群中运行web抓取,hadoop,Hadoop,一篇博客文章——建议从Hadoop集群内调用外部系统(查询twitter API或抓取网页) 对于我目前正在开发的系统,有快速和慢速(批量)子系统。数据是从Twitter的API中获取的,也是为了快速、独立的检索。这可能是每天数十万(甚至数百万)的外部请求。网页的内容也会被检索以供进一步处理——至少有相同规模的请求 除了对外部源的潜在副作用(更改数据以便在下一个请求中有所不同),以这种方式使用Hadoop的好处和坏处是什么?这是一种有效且有用的批量和/或快速检索数据的方法吗?另外:这是一种非常简

一篇博客文章——建议从Hadoop集群内调用外部系统(查询twitter API或抓取网页)

对于我目前正在开发的系统,有快速和慢速(批量)子系统。数据是从Twitter的API中获取的,也是为了快速、独立的检索。这可能是每天数十万(甚至数百万)的外部请求。网页的内容也会被检索以供进一步处理——至少有相同规模的请求


除了对外部源的潜在副作用(更改数据以便在下一个请求中有所不同),以这种方式使用Hadoop的好处和坏处是什么?这是一种有效且有用的批量和/或快速检索数据的方法吗?

另外:这是一种非常简单的方法,可以分发需要完成的工作

缺点:由于Hadoop从失败中恢复的方式,您需要非常小心地管理正在运行和未运行的内容(这是您绝对可以做到的,这只是需要注意的事情)。例如,如果reduce失败,那么向该分区提供数据的所有映射作业也必须重新运行。显然,这很可能是一个无缩减器的作业,但映射程序仍然如此……如果有一半调用运行,那么作业失败,那么它会被重新调度吗

您可以使用某种高通量系统来管理实际发出的呼叫或类似的呼叫。但它肯定可以适当地用于此