如何在hadoop中获得多路输出

如何在hadoop中获得多路输出,hadoop,outputformat,Hadoop,Outputformat,我是Hadoop新手,现在必须处理一个输入文件。我想处理每一行,每一行的输出应该是一个文件 我在网上冲浪,找到了MultipleOutFormat,并生成了FileNameForkeyValue 但是大多数人是用JobConf类编写的。当我使用Hadoop 0.20.1时,我认为会出现工作类。我不知道如何使用作业类按键生成多个输出文件 有人能帮我吗?Eclipse插件主要用于提交和监视作业,以及与HDFS交互,以对抗真实集群或“psuedo”集群 如果您是在本地模式下运行的,那么我认为插件不会给

我是Hadoop新手,现在必须处理一个输入文件。我想处理每一行,每一行的输出应该是一个文件

我在网上冲浪,找到了MultipleOutFormat,并生成了FileNameForkeyValue

但是大多数人是用JobConf类编写的。当我使用Hadoop 0.20.1时,我认为会出现工作类。我不知道如何使用作业类按键生成多个输出文件


有人能帮我吗?

Eclipse插件主要用于提交和监视作业,以及与HDFS交互,以对抗真实集群或“psuedo”集群

如果您是在本地模式下运行的,那么我认为插件不会给您带来任何好处,因为您的作业将在单个JVM中运行。考虑到这一点,我会说在Eclipse项目的类路径中包含最新的1.xHadoop核心


另一种
MultipleOutputFormat
尚未移植到新的mapreduce包(1.1.2或2.0.4-alpha),因此您需要自己移植它,或者找到另一种方法(可能
MultipleOutputs
-the)

您是否已固定到Hadoop版本?0.20.1没有用于新mapreduce api包的多输出端口版本。如果可能,升级到最新的1.x版本?我使用的是hadoop eclipse插件0.20.1。我不知道有1/x版本。你能告诉我1.x的地址吗?你的目标集群在运行什么(或者你正在使用Eclipse在本地模式下运行?)是的,我只是想在本地尝试一下,我在我的Eclipse中插入了一个hadoop-0.20.1-Eclipse-plugin.jar。