如何将Amazon Glacier/S3与hadoop map reduce/spark相结合？_Hadoop_Apache Spark_Amazon S3_Emr_Amazon Glacier

如何将Amazon Glacier/S3与hadoop map reduce/spark相结合？

hadoop apache-spark amazon-s3

如何将Amazon Glacier/S3与hadoop map reduce/spark相结合？,hadoop,apache-spark,amazon-s3,emr,amazon-glacier,Hadoop,Apache Spark,Amazon S3,Emr,Amazon Glacier,我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据，并将输出数据保存在RDBMS中，例如Vertica 我在大数据方面完全是个傻瓜。我只参加了一些关于map reduce和sparx的在线会议和PPT。并创建了一些用于学习目的的虚拟map-reduce代码到目前为止，我只有一些命令可以将S3中的数据导入AmazonEMR中的HDFC，并在处理后将其存储在HDFS文件中下面是我的问题：在执行map reduce之前，是否必须首先将数据从S3同步到H

我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据，并将输出数据保存在RDBMS中，例如Vertica

我在大数据方面完全是个傻瓜。我只参加了一些关于map reduce和sparx的在线会议和PPT。并创建了一些用于学习目的的虚拟map-reduce代码

到目前为止，我只有一些命令可以将S3中的数据导入AmazonEMR中的HDFC，并在处理后将其存储在HDFS文件中

下面是我的问题：

在执行map reduce之前，是否必须首先将数据从S3同步到HDFC，或者是否有直接使用S3的方法`
如何让hadoop访问亚马逊冰川数据`
最后，我如何将输出存储到数据库`

欢迎提供任何建议/参考。

EMR集群能够读/写S3，因此无需将数据复制到集群。S3有一个作为Hadoop文件系统的实现，因此它可以被视为与HDFS一样

如果您的MR/Spark作业无法直接访问冰川数据，则必须首先从冰川下载数据，这本身就是一个漫长的过程

检查HDFS和DB之间的泵送数据