Hadoop不适合跨多个站点进行分布式处理?

Hadoop不适合跨多个站点进行分布式处理?,hadoop,distributed-computing,grid-computing,Hadoop,Distributed Computing,Grid Computing,我读过几篇文章,认为Hadoop实际上只设计用于单个物理位置的集群,而不是用于大量分布广泛的节点(例如,通过internet从多个站点运行分布式集群) 有没有人有过在多个站点上使用Hadoop的实际经验?我会遇到什么样的问题?或者我最好使用不同的框架(例如BOINC)。如果在一组相对本地的节点上执行与在一组分布广泛的节点上执行有任何区别,那么在节点之间来回移动大量数据所需的时间会增加。如果您遇到了处理、聚合和连接大量数据的问题,那么您就必须在节点之间发送大量数据。这意味着无论您选择什么平台(ha

我读过几篇文章,认为Hadoop实际上只设计用于单个物理位置的集群,而不是用于大量分布广泛的节点(例如,通过internet从多个站点运行分布式集群)


有没有人有过在多个站点上使用Hadoop的实际经验?我会遇到什么样的问题?或者我最好使用不同的框架(例如BOINC)。

如果在一组相对本地的节点上执行与在一组分布广泛的节点上执行有任何区别,那么在节点之间来回移动大量数据所需的时间会增加。如果您遇到了处理、聚合和连接大量数据的问题,那么您就必须在节点之间发送大量数据。这意味着无论您选择什么平台(hadoop、storm等),您都必须处理这个问题。BOINC或其他基于志愿者的系统可能更便宜,但您的实现仍然会受到高数据传输成本的影响。此外,您可能会在混合中引入节点异构性,这将使您的实现开发和调试更加有趣


顺便说一下,hadoop和BOINC是两种截然不同的动物,它们解决的问题截然不同

关于异构机器上的Hadoop问题的好观点——我将做更多的研究。关于数据传输是同一位置集群和分布式集群之间的关键区别,我理解这种情况总是会发生的。我想我的潜在问题是Hadoop在这方面是否比其他分布式平台差得多?(例如,它是否有非常健谈的内部数据分发协议等?)?我不知道,但是如果任何一个被大量使用的开源平台都会过于健谈,我会感到惊讶。如果没有一个明确的答案,你可能会想看看另一个网格计算平台。除了结果之外,我相信提出的问题和用来回答这些问题的方法都非常有洞察力。谢谢你的链接,Lolo-虽然没有遇到JPPF,但看起来很有希望。