Hadoop 用于EMR的hi1.4XL大型SSD EC2实例
我在EMR上运行了几个hadoop作业。其中一些作业需要处理日志文件。日志文件是巨大的,每一个都是3GB的.gz格式。日志存储在S3上 目前,我使用m1.xlarge进行处理,仅将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS 我计划使用新的基于SSD的hi1.4XL,因为它具有快速I/O,而不是m1.xlarge。但这会有助于降低成本吗 但hi1.4X的成本比m1.xlarge大得多 m1.xlarge-8 EC2计算单位@0.614$每个=4.912$/小时 h1.4XL-35 EC2计算单位@3.1$每个=108.5$/小时 价格上涨了大约23倍。我的表现会有这么大的提高吗?考虑一下我的 hadoop作业具有高I/O限制 我无法通过启动hi1.4x1大型实例来测试它,因此在StackOverflow上询问它。有人有比较这两种实例类型的基准吗?谷歌没有帮助 问候Hadoop 用于EMR的hi1.4XL大型SSD EC2实例,hadoop,amazon-s3,amazon-ec2,solid-state-drive,emr,Hadoop,Amazon S3,Amazon Ec2,Solid State Drive,Emr,我在EMR上运行了几个hadoop作业。其中一些作业需要处理日志文件。日志文件是巨大的,每一个都是3GB的.gz格式。日志存储在S3上 目前,我使用m1.xlarge进行处理,仅将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS 我计划使用新的基于SSD的hi1.4XL,因为它具有快速I/O,而不是m1.xlarge。但这会有助于降低成本吗 但hi1.4X的成本比m1.xlarge大得多 m1.xlarge-8 EC2计算单位@0.614$每个=4.912$/小