Hadoop 在Amazon EMR上处理15GB的日志文件数据需要多长时间?

Hadoop 在Amazon EMR上处理15GB的日志文件数据需要多长时间?,hadoop,hive,amazon-emr,Hadoop,Hive,Amazon Emr,我有一个包含1个主节点(m4.large)、6个核心节点(m4.large)和4个任务节点(m4.large)的集群。15GB的cloudfront日志数据分为35个映射器和64个还原器。目前,整个过程需要30多分钟——对我来说太长了,所以我停止工作重新配置 我希望处理此设置需要多长时间?要使作业在15分钟内运行,合理的调整大小是什么?数据在哪里?在S3或HDFS中?最初是在S3上,但后来转移到HDFS,但没有多大成功

我有一个包含1个主节点(m4.large)、6个核心节点(m4.large)和4个任务节点(m4.large)的集群。15GB的cloudfront日志数据分为35个映射器和64个还原器。目前,整个过程需要30多分钟——对我来说太长了,所以我停止工作重新配置


我希望处理此设置需要多长时间?要使作业在15分钟内运行,合理的调整大小是什么?

数据在哪里?在S3或HDFS中?最初是在S3上,但后来转移到HDFS,但没有多大成功