Hadoop 用于EMR的hi1.4XL大型SSD EC2实例

Hadoop 用于EMR的hi1.4XL大型SSD EC2实例,hadoop,amazon-s3,amazon-ec2,solid-state-drive,emr,Hadoop,Amazon S3,Amazon Ec2,Solid State Drive,Emr,我在EMR上运行了几个hadoop作业。其中一些作业需要处理日志文件。日志文件是巨大的,每一个都是3GB的.gz格式。日志存储在S3上 目前,我使用m1.xlarge进行处理,仅将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS 我计划使用新的基于SSD的hi1.4XL,因为它具有快速I/O,而不是m1.xlarge。但这会有助于降低成本吗 但hi1.4X的成本比m1.xlarge大得多 m1.xlarge-8 EC2计算单位@0.614$每个=4.912$/小

我在EMR上运行了几个hadoop作业。其中一些作业需要处理日志文件。日志文件是巨大的,每一个都是3GB的.gz格式。日志存储在S3上

目前,我使用m1.xlarge进行处理,仅将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS

我计划使用新的基于SSD的hi1.4XL,因为它具有快速I/O,而不是m1.xlarge。但这会有助于降低成本吗

但hi1.4X的成本比m1.xlarge大得多

m1.xlarge-8 EC2计算单位@0.614$每个=4.912$/小时 h1.4XL-35 EC2计算单位@3.1$每个=108.5$/小时

价格上涨了大约23倍。我的表现会有这么大的提高吗?考虑一下我的 hadoop作业具有高I/O限制

我无法通过启动hi1.4x1大型实例来测试它,因此在StackOverflow上询问它。有人有比较这两种实例类型的基准吗?谷歌没有帮助

问候

  • 我不认为SSD实例是好的选择,因为它们的值在高随机IO中,而在Hadoop中我们需要顺序IO
  • 在从s3复制到HDFS的过程中,s3几乎肯定是一个瓶颈
  • 为了省钱,我建议尝试更小的实例来平衡IO和CPU
  • 您是否使用DISTCP将数据从s3复制到HDFS(只是为了检查…)
  • 如果每个集群生命周期处理一次日志,则可以直接从s3开始处理,避免复制到HDFS