Amazon ec2 如何在Amazon Elastic Mapreduce上使用Hive来处理Amazon Simple DB中的数据?

Amazon ec2 如何在Amazon Elastic Mapreduce上使用Hive来处理Amazon Simple DB中的数据?,amazon-ec2,amazon-web-services,hive,amazon-emr,Amazon Ec2,Amazon Web Services,Hive,Amazon Emr,我在Amazon Simple DB域中有很多数据。我想在Elastic Map Reduce(在hadoop之上)上启动Hive,然后从simpledb导入数据,或者连接到simpledb并在其上运行hiveql查询。我在导入数据时遇到问题。任何指针?作为流式hadoop作业的输入,可以为simpleDB提供一系列select语句 例如,您的输入可以包含(以不太详细的形式): 然后,您将实现一个映射器脚本,该脚本执行以下转换: 输入\选择\语句=>执行\选择\语句=>输出\结果 使用流式处理非

我在Amazon Simple DB域中有很多数据。我想在Elastic Map Reduce(在hadoop之上)上启动Hive,然后从simpledb导入数据,或者连接到simpledb并在其上运行hiveql查询。我在导入数据时遇到问题。任何指针?

作为流式hadoop作业的输入,可以为simpleDB提供一系列select语句

例如,您的输入可以包含(以不太详细的形式):

然后,您将实现一个映射器脚本,该脚本执行以下转换: 输入\选择\语句=>执行\选择\语句=>输出\结果

使用流式处理非常简单,因为您可以使用任何语言的任何库,而不必担心实现任何复杂的Hadoop java内容

希望这有帮助


(黑客的方法是让您在本地运行一个脚本,该脚本与上述操作相同,但会将结果加载到s3中。我每晚都会为我们的许多数据库数据运行一个类似的脚本)

@Ankit:我有类似的用例,但稍有变化的是,我使用的是将数据导入HDFS(在HDFS的/user/hive/warehouse目录中)使用SQOOP从MS SQL Server获取。但我对Amazon服务还不熟悉,因此正在了解如何开始。请为我的用例提供一些解决方案。
collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...