Java Hadoop自定义输入格式,不使用';不要使用文件

Java Hadoop自定义输入格式,不使用';不要使用文件,java,hadoop,amazon-simpledb,elastic-map-reduce,Java,Hadoop,Amazon Simpledb,Elastic Map Reduce,我刚刚开始使用Hadoop,我正在努力找出如何使用非文件的其他输入源,即从AWS SimpleDB读取所有行,或从另一个系统上的REST API读取所有记录。“一切在线”仅显示如何处理文件或一些选定的数据库 InputFormat的API看起来相当复杂,因此我正在尝试找出从任何非文件数据源读取数据的最快方法,然后可以使用Amazon的Elastic MapReduce(基于Hadoop)对这些数据源进行MapReduce。我正在使用JAVA编写代码 谢谢 最快的方法是使用一些数据聚合工具,如或。

我刚刚开始使用Hadoop,我正在努力找出如何使用非文件的其他输入源,即从AWS SimpleDB读取所有行,或从另一个系统上的REST API读取所有记录。“一切在线”仅显示如何处理文件或一些选定的数据库

InputFormat的API看起来相当复杂,因此我正在尝试找出从任何非文件数据源读取数据的最快方法,然后可以使用Amazon的Elastic MapReduce(基于Hadoop)对这些数据源进行MapReduce。我正在使用JAVA编写代码


谢谢

最快的方法是使用一些数据聚合工具,如或。 您可以找到一个非常好的示例,说明如何使用Twitter API通过Flume收集Twitter数据。它展示了如何使用Flume将twitter数据读入Hadoop集群,然后使用Hive进行处理。如果你需要的话,你可以写你自己的MR作业来做这件事。试图为这类事情设计一种定制的输入格式确实需要一些工作,我认为你在这方面不会找到太多帮助(除非有人已经这样做了,并准备与你分享)


HTH

最快的方法是使用一些数据聚合工具,如或。 您可以找到一个非常好的示例,说明如何使用Twitter API通过Flume收集Twitter数据。它展示了如何使用Flume将twitter数据读入Hadoop集群,然后使用Hive进行处理。如果你需要的话,你可以写你自己的MR作业来做这件事。试图为这类事情设计一种定制的输入格式确实需要一些工作,我认为你在这方面不会找到太多帮助(除非有人已经这样做了,并准备与你分享)