如何将Amazon Glacier/S3与hadoop map reduce/spark相结合?

如何将Amazon Glacier/S3与hadoop map reduce/spark相结合?,hadoop,apache-spark,amazon-s3,emr,amazon-glacier,Hadoop,Apache Spark,Amazon S3,Emr,Amazon Glacier,我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据,并将输出数据保存在RDBMS中,例如Vertica 我在大数据方面完全是个傻瓜。我只参加了一些关于map reduce和sparx的在线会议和PPT。并创建了一些用于学习目的的虚拟map-reduce代码 到目前为止,我只有一些命令可以将S3中的数据导入AmazonEMR中的HDFC,并在处理后将其存储在HDFS文件中 下面是我的问题: 在执行map reduce之前,是否必须首先将数据从S3同步到H

我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据,并将输出数据保存在RDBMS中,例如Vertica

我在大数据方面完全是个傻瓜。我只参加了一些关于map reduce和sparx的在线会议和PPT。并创建了一些用于学习目的的虚拟map-reduce代码

到目前为止,我只有一些命令可以将S3中的数据导入AmazonEMR中的HDFC,并在处理后将其存储在HDFS文件中

下面是我的问题:

  • 在执行map reduce之前,是否必须首先将数据从S3同步到HDFC,或者是否有直接使用S3的方法`

  • 如何让hadoop访问亚马逊冰川数据`

  • 最后,我如何将输出存储到数据库`


欢迎提供任何建议/参考。

EMR集群能够读/写S3,因此无需将数据复制到集群。S3有一个作为Hadoop文件系统的实现,因此它可以被视为与HDFS一样

如果您的MR/Spark作业无法直接访问冰川数据,则必须首先从冰川下载数据,这本身就是一个漫长的过程

检查HDFS和DB之间的泵送数据