Amazon ec2 如何在Amazon Elastic Mapreduce上使用Hive来处理Amazon Simple DB中的数据？_Amazon Ec2_Amazon Web Services_Hive_Amazon Emr

Amazon ec2 如何在Amazon Elastic Mapreduce上使用Hive来处理Amazon Simple DB中的数据？

amazon-ec2 amazon-web-services hive

Amazon ec2 如何在Amazon Elastic Mapreduce上使用Hive来处理Amazon Simple DB中的数据？,amazon-ec2,amazon-web-services,hive,amazon-emr,Amazon Ec2,Amazon Web Services,Hive,Amazon Emr,我在Amazon Simple DB域中有很多数据。我想在Elastic Map Reduce（在hadoop之上）上启动Hive，然后从simpledb导入数据，或者连接到simpledb并在其上运行hiveql查询。我在导入数据时遇到问题。任何指针？作为流式hadoop作业的输入，可以为simpleDB提供一系列select语句例如，您的输入可以包含（以不太详细的形式）：然后，您将实现一个映射器脚本，该脚本执行以下转换：输入\选择\语句=>执行\选择\语句=>输出\结果使用流式处理非

我在Amazon Simple DB域中有很多数据。我想在Elastic Map Reduce（在hadoop之上）上启动Hive，然后从simpledb导入数据，或者连接到simpledb并在其上运行hiveql查询。我在导入数据时遇到问题。任何指针？

作为流式hadoop作业的输入，可以为simpleDB提供一系列select语句

例如，您的输入可以包含（以不太详细的形式）：

然后，您将实现一个映射器脚本，该脚本执行以下转换：输入\选择\语句=>执行\选择\语句=>输出\结果

使用流式处理非常简单，因为您可以使用任何语言的任何库，而不必担心实现任何复杂的Hadoop java内容

希望这有帮助

（黑客的方法是让您在本地运行一个脚本，该脚本与上述操作相同，但会将结果加载到s3中。我每晚都会为我们的许多数据库数据运行一个类似的脚本）

@Ankit：我有类似的用例，但稍有变化的是，我使用的是将数据导入HDFS（在HDFS的/user/hive/warehouse目录中）使用SQOOP从MS SQL Server获取。但我对Amazon服务还不熟悉，因此正在了解如何开始。请为我的用例提供一些解决方案。

collectionA between dates 123 and 234
collectionA between dates 235 and 559
collectionA between dates 560 and 3000
...