在Hadoop集群中运行web抓取_Hadoop

在Hadoop集群中运行web抓取

hadoop

在Hadoop集群中运行web抓取,hadoop,Hadoop,一篇博客文章——建议从Hadoop集群内调用外部系统（查询twitter API或抓取网页）对于我目前正在开发的系统，有快速和慢速（批量）子系统。数据是从Twitter的API中获取的，也是为了快速、独立的检索。这可能是每天数十万（甚至数百万）的外部请求。网页的内容也会被检索以供进一步处理——至少有相同规模的请求除了对外部源的潜在副作用（更改数据以便在下一个请求中有所不同），以这种方式使用Hadoop的好处和坏处是什么？这是一种有效且有用的批量和/或快速检索数据的方法吗？另外：这是一种非常简

一篇博客文章——建议从Hadoop集群内调用外部系统（查询twitter API或抓取网页）

对于我目前正在开发的系统，有快速和慢速（批量）子系统。数据是从Twitter的API中获取的，也是为了快速、独立的检索。这可能是每天数十万（甚至数百万）的外部请求。网页的内容也会被检索以供进一步处理——至少有相同规模的请求

除了对外部源的潜在副作用（更改数据以便在下一个请求中有所不同），以这种方式使用Hadoop的好处和坏处是什么？这是一种有效且有用的批量和/或快速检索数据的方法吗？

另外：这是一种非常简单的方法，可以分发需要完成的工作

缺点：由于Hadoop从失败中恢复的方式，您需要非常小心地管理正在运行和未运行的内容（这是您绝对可以做到的，这只是需要注意的事情）。例如，如果reduce失败，那么向该分区提供数据的所有映射作业也必须重新运行。显然，这很可能是一个无缩减器的作业，但映射程序仍然如此……如果有一半调用运行，那么作业失败，那么它会被重新调度吗

您可以使用某种高通量系统来管理实际发出的呼叫或类似的呼叫。但它肯定可以适当地用于此