Amazon ec2 对EC2上Hadoop的建议?

Amazon ec2 对EC2上Hadoop的建议?,amazon-ec2,hadoop,mapreduce,Amazon Ec2,Hadoop,Mapreduce,在EC2中运行Hadoop时,我似乎有两个选择: A:使用Hadoop附带的特定于EC2的shell脚本,自己管理集群 B:使用弹性MapReduce,为方便起见多付一点钱 我倾向于B,但我希望有更多经验的人给我一些建议。以下是我的问题: 是否有任何任务可以用其中一种方法完成,但不能用另一种方法完成 除了这两个,还有其他选择吗 如果我选择B,回到A有多容易?也就是说,供应商锁定的危险是什么 Amazon Elastic MapReduce(EMR)开发团队的知情人士告诉我,使用EMR至少还有

在EC2中运行Hadoop时,我似乎有两个选择:

  • A:使用Hadoop附带的特定于EC2的shell脚本,自己管理集群
  • B:使用弹性MapReduce,为方便起见多付一点钱
我倾向于B,但我希望有更多经验的人给我一些建议。以下是我的问题:

  • 是否有任何任务可以用其中一种方法完成,但不能用另一种方法完成
  • 除了这两个,还有其他选择吗
  • 如果我选择B,回到A有多容易?也就是说,供应商锁定的危险是什么

  • Amazon Elastic MapReduce(EMR)开发团队的知情人士告诉我,使用EMR至少还有两个好处:a)Amazon正在积极地对EMR上使用的Hadoop代码库进行bug修复和性能增强,b)Amazon在EMR服务器和S3服务器之间使用了一个高性能网络,而EC2服务器和S3服务器之间可能不可用

    更新:见@mat的评论,该评论反驳了使用电子病历的传闻优势

    第三种选择:
    您可以使用在ec2上设置hadoop群集(rackspace也受支持)

    免责声明:我是Axemblr.com的创始人

    你也可以使用商业替代品。是一个我们正在构建的工具,它可以在几分钟内部署一个集群,并满足您的所有需求(包括Cloudera Hue、Mahout和Pig)

    我们还正在构建一个从API角度完全兼容的EMR替代方案,目标是私有云

    如果您想知道为什么在EC2上运行CDH而不是EMR是有意义的,请参阅:


    他们是否为Hadoop项目提供了bug修复和增强功能?如果他们是,那么这与我的问题无关。如果他们没有,那么我担心的另一件事就是:供应商锁定。a)到目前为止,我们所做的大多数补丁,特别是蜂巢周围的补丁,都已被接收回主干中。b) 这是完全错误的;代表我们的客户提供EMR的实例与您自己可能启动的EC2实例没有任何不同(在资源方面)。