如何在hadoop中获得多路输出_Hadoop_Outputformat

如何在hadoop中获得多路输出

hadoop

如何在hadoop中获得多路输出,hadoop,outputformat,Hadoop,Outputformat,我是Hadoop新手，现在必须处理一个输入文件。我想处理每一行，每一行的输出应该是一个文件我在网上冲浪，找到了MultipleOutFormat，并生成了FileNameForkeyValue 但是大多数人是用JobConf类编写的。当我使用Hadoop 0.20.1时，我认为会出现工作类。我不知道如何使用作业类按键生成多个输出文件有人能帮我吗？Eclipse插件主要用于提交和监视作业，以及与HDFS交互，以对抗真实集群或“psuedo”集群如果您是在本地模式下运行的，那么我认为插件不会给

我是Hadoop新手，现在必须处理一个输入文件。我想处理每一行，每一行的输出应该是一个文件

我在网上冲浪，找到了MultipleOutFormat，并生成了FileNameForkeyValue

但是大多数人是用JobConf类编写的。当我使用Hadoop 0.20.1时，我认为会出现工作类。我不知道如何使用作业类按键生成多个输出文件

有人能帮我吗？

Eclipse插件主要用于提交和监视作业，以及与HDFS交互，以对抗真实集群或“psuedo”集群

如果您是在本地模式下运行的，那么我认为插件不会给您带来任何好处，因为您的作业将在单个JVM中运行。考虑到这一点，我会说在Eclipse项目的类路径中包含最新的1.xHadoop核心

另一种

MultipleOutputFormat

尚未移植到新的mapreduce包（1.1.2或2.0.4-alpha），因此您需要自己移植它，或者找到另一种方法（可能

MultipleOutputs

-the）

您是否已固定到Hadoop版本？0.20.1没有用于新mapreduce api包的多输出端口版本。如果可能，升级到最新的1.x版本？我使用的是hadoop eclipse插件0.20.1。我不知道有1/x版本。你能告诉我1.x的地址吗？你的目标集群在运行什么（或者你正在使用Eclipse在本地模式下运行？）是的，我只是想在本地尝试一下，我在我的Eclipse中插入了一个hadoop-0.20.1-Eclipse-plugin.jar。