Hadoop具有任意、不可拆分、预先存在的二进制文件

Hadoop具有任意、不可拆分、预先存在的二进制文件,hadoop,mapreduce,Hadoop,Mapreduce,我试图在一大组预先存在的二进制文件上运行MapReduce作业。文件已经存在,我无法更改其格式 我应该为此编写自己的输入格式吗?我如何制作一个简单的InputFormat,它只返回一个InputStream,这样我就可以处理文件了?我不认为我们有一个内置的InputFormat,它会忽略拆分并向映射器提供整个文件 您需要编写自己的自定义InputFormat。您可以找到的详细信息

我试图在一大组预先存在的二进制文件上运行MapReduce作业。文件已经存在,我无法更改其格式


我应该为此编写自己的输入格式吗?我如何制作一个简单的InputFormat,它只返回一个InputStream,这样我就可以处理文件了?

我不认为我们有一个内置的InputFormat,它会忽略拆分并向映射器提供整个文件

您需要编写自己的自定义InputFormat。您可以找到的详细信息