Java Hadoop自定义输入格式，不使用'；不要使用文件_Java_Hadoop_Amazon Simpledb_Elastic Map Reduce

Java Hadoop自定义输入格式，不使用'；不要使用文件

java hadoop

Java Hadoop自定义输入格式，不使用'；不要使用文件,java,hadoop,amazon-simpledb,elastic-map-reduce,Java,Hadoop,Amazon Simpledb,Elastic Map Reduce,我刚刚开始使用Hadoop，我正在努力找出如何使用非文件的其他输入源，即从AWS SimpleDB读取所有行，或从另一个系统上的REST API读取所有记录。“一切在线”仅显示如何处理文件或一些选定的数据库 InputFormat的API看起来相当复杂，因此我正在尝试找出从任何非文件数据源读取数据的最快方法，然后可以使用Amazon的Elastic MapReduce（基于Hadoop）对这些数据源进行MapReduce。我正在使用JAVA编写代码谢谢最快的方法是使用一些数据聚合工具，如或。

我刚刚开始使用Hadoop，我正在努力找出如何使用非文件的其他输入源，即从AWS SimpleDB读取所有行，或从另一个系统上的REST API读取所有记录。“一切在线”仅显示如何处理文件或一些选定的数据库

InputFormat的API看起来相当复杂，因此我正在尝试找出从任何非文件数据源读取数据的最快方法，然后可以使用Amazon的Elastic MapReduce（基于Hadoop）对这些数据源进行MapReduce。我正在使用JAVA编写代码

谢谢

最快的方法是使用一些数据聚合工具，如或。您可以找到一个非常好的示例，说明如何使用Twitter API通过Flume收集Twitter数据。它展示了如何使用Flume将twitter数据读入Hadoop集群，然后使用Hive进行处理。如果你需要的话，你可以写你自己的MR作业来做这件事。试图为这类事情设计一种定制的输入格式确实需要一些工作，我认为你在这方面不会找到太多帮助（除非有人已经这样做了，并准备与你分享）

HTH

嗯