从标准输入流读取Hadoop

从标准输入流读取Hadoop,hadoop,mapreduce,stdin,Hadoop,Mapreduce,Stdin,我希望我的MapReduce程序从标准输入流(System.in)读取数据 例如,在run()方法中,如何使程序从System.in读取,而不是像这样的文件..FileInputFormat.addInputPath(作业,新路径(“dummy.txt”) 还有,我应该为作业设置什么类。setInputFormat(…)我在hadoop中没有看到这样的设置。可能您必须不时地编写System.in,并在每次获得新内容时对保存的内容运行hadoop作业 这种情况在使用hadoop处理连续生成/填充的

我希望我的MapReduce程序从标准输入流(System.in)读取数据 例如,在run()方法中,如何使程序从System.in读取,而不是像这样的文件..FileInputFormat.addInputPath(作业,新路径(“dummy.txt”)

还有,我应该为作业设置什么类。setInputFormat(…)

我在hadoop中没有看到这样的设置。可能您必须不时地编写System.in,并在每次获得新内容时对保存的内容运行hadoop作业


这种情况在使用hadoop处理连续生成/填充的日志文件时很常见。在这种情况下,明智的做法是每天或每周获取日志文件,并在获取日志文件后在其上运行hadoop作业。

使用hadoop Streaming来执行此操作:

支持标准输入、标准输出