Java 如何在Hadoop map/reduce中写入映射器中的多个文件？_Java_Hadoop_Mapreduce_Hdfs_Parquet

Java 如何在Hadoop map/reduce中写入映射器中的多个文件？

java hadoop mapreduce

Java 如何在Hadoop map/reduce中写入映射器中的多个文件？,java,hadoop,mapreduce,hdfs,parquet,Java,Hadoop,Mapreduce,Hdfs,Parquet,我有一个MapReduce作业，没有任何reducer，它解析输入文件，并以拼花格式在映射器中的磁盘上写入一些输出。由于此作业可以将多个文件夹中的文件作为每个日期一个文件夹的输入，因此我还希望将输出拆分为多个文件夹，如： 01JAN15 output-0000 output-0001 02JAN15 output-0000 output-0001 我在中查看了MultipleOutput格式类，但它似乎只在reduce部分的几个文件夹中进行编写不知何故，写

我有一个MapReduce作业，没有任何reducer，它解析输入文件，并以拼花格式在映射器中的磁盘上写入一些输出。由于此作业可以将多个文件夹中的文件作为每个日期一个文件夹的输入，因此我还希望将输出拆分为多个文件夹，如：

01JAN15
    output-0000
    output-0001

02JAN15
    output-0000
    output-0001

我在中查看了MultipleOutput格式类，但它似乎只在reduce部分的几个文件夹中进行编写

不知何故，写入同一目录中的多个文件是可行的，但当我尝试写入多个目录时，就会出现异常，可能是因为某些映射程序试图同时创建同一目录

仅供参考，我的代码在映射器中类似：

mos.write("pb", null, message, date + "/output");

我这样定义输出格式：

MultipleOutputs.addNamedOutput(job, "pb", ProtoParquetOutputFormat.class,
Void.class, com.google.protobuf.Message.class);

我得到的例外是：

15/01/11 15:05:09 WARN ipc.Client: interrupted waiting to send rpc request to server
java.lang.InterruptedException
    at java.util.concurrent.FutureTask.awaitDone(FutureTask.java:400)
    at java.util.concurrent.FutureTask.get(FutureTask.java:187)
    at org.apache.hadoop.ipc.Client$Connection.sendRpcRequest(Client.java:1046)
    at org.apache.hadoop.ipc.Client.call(Client.java:1441)
    at org.apache.hadoop.ipc.Client.call(Client.java:1399)
    at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:232)
    at com.sun.proxy.$Proxy9.getBlockLocations(Unknown Source)
    at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getBlockLocations(ClientNamenodeProtocolTranslatorPB.java:254)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:187)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)
    at com.sun.proxy.$Proxy10.getBlockLocations(Unknown Source)
    at org.apache.hadoop.hdfs.DFSClient.callGetBlockLocations(DFSClient.java:1220)
    at org.apache.hadoop.hdfs.DFSClient.getLocatedBlocks(DFSClient.java:1210)
    at org.apache.hadoop.hdfs.DFSClient.getLocatedBlocks(DFSClient.java:1200)
    at org.apache.hadoop.hdfs.DFSInputStream.fetchLocatedBlocksAndGetLastBlockLength(DFSInputStream.java:271)
    at org.apache.hadoop.hdfs.DFSInputStream.openInfo(DFSInputStream.java:238)
    at org.apache.hadoop.hdfs.DFSInputStream.<init>(DFSInputStream.java:231)
    at org.apache.hadoop.hdfs.DFSClient.open(DFSClient.java:1498)
    at org.apache.hadoop.hdfs.DistributedFileSystem$3.doCall(DistributedFileSystem.java:302)
    at org.apache.hadoop.hdfs.DistributedFileSystem$3.doCall(DistributedFileSystem.java:298)
    at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
    at org.apache.hadoop.hdfs.DistributedFileSystem.open(DistributedFileSystem.java:298)
    at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:766)
    at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:272)
    at parquet.hadoop.ParquetFileReader$2.call(ParquetFileReader.java:180)
    at parquet.hadoop.ParquetFileReader$2.call(ParquetFileReader.java:176)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

你知道我想做的事是否可行吗？我做错了什么？

谢谢

我知道你的意思，但不幸的是，据我所知，你需要自己做这件事

只需创建从配置和实现工具接口扩展的驱动程序类。然后，您可以简单地配置一个回调，该回调将在MapRed执行完成后调用，然后只需编写代码来移动相应文件夹中的文件

这里是链接

您可以使用分区输出到不同的文件中

一个输出文件不能由多个进程映射器或还原器编写，因此，为了生成多个输出文件，我必须定义自定义分区，或在还原器中对数据进行分组，并在输出文件名中输入键。

映射程序不可能将多个输入文件中的数据写入同一个文件。

您尝试的操作是完全可以实现的，并且您的操作方式是正确的。你得到的stacktrace与多次输出无关，是其他原因造成了这个问题。虽然很奇怪，只要删除输出文件名中的/我就没有例外……真的很奇怪。我已经试着在我的机器上编写了一个示例程序，它可以很好地与/一起工作，并且它能够准确地生成所需的输出。我建议扩展它们如何使用分区。现在，虽然这只是一个答案的开始，但更多的是一个评论。