Hadoop 用于EMR的hi1.4XL大型SSD EC2实例_Hadoop_Amazon S3_Amazon Ec2_Solid State Drive_Emr

Hadoop 用于EMR的hi1.4XL大型SSD EC2实例

hadoop amazon-s3 amazon-ec2

Hadoop 用于EMR的hi1.4XL大型SSD EC2实例,hadoop,amazon-s3,amazon-ec2,solid-state-drive,emr,Hadoop,Amazon S3,Amazon Ec2,Solid State Drive,Emr,我在EMR上运行了几个hadoop作业。其中一些作业需要处理日志文件。日志文件是巨大的，每一个都是3GB的.gz格式。日志存储在S3上目前，我使用m1.xlarge进行处理，仅将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS 我计划使用新的基于SSD的hi1.4XL，因为它具有快速I/O，而不是m1.xlarge。但这会有助于降低成本吗但hi1.4X的成本比m1.xlarge大得多 m1.xlarge-8 EC2计算单位@0.614$每个=4.912$/小

我在EMR上运行了几个hadoop作业。其中一些作业需要处理日志文件。日志文件是巨大的，每一个都是3GB的.gz格式。日志存储在S3上

目前，我使用m1.xlarge进行处理，仅将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS

我计划使用新的基于SSD的hi1.4XL，因为它具有快速I/O，而不是m1.xlarge。但这会有助于降低成本吗

但hi1.4X的成本比m1.xlarge大得多

m1.xlarge-8 EC2计算单位@0.614$每个=4.912$/小时 h1.4XL-35 EC2计算单位@3.1$每个=108.5$/小时

价格上涨了大约23倍。我的表现会有这么大的提高吗？考虑一下我的 hadoop作业具有高I/O限制

我无法通过启动hi1.4x1大型实例来测试它，因此在StackOverflow上询问它。有人有比较这两种实例类型的基准吗？谷歌没有帮助

问候

我不认为SSD实例是好的选择，因为它们的值在高随机IO中，而在Hadoop中我们需要顺序IO

在从s3复制到HDFS的过程中，s3几乎肯定是一个瓶颈

为了省钱，我建议尝试更小的实例来平衡IO和CPU

您是否使用DISTCP将数据从s3复制到HDFS（只是为了检查…）

如果每个集群生命周期处理一次日志，则可以直接从s3开始处理，避免复制到HDFS