Hadoop具有任意、不可拆分、预先存在的二进制文件_Hadoop_Mapreduce

Hadoop具有任意、不可拆分、预先存在的二进制文件

hadoop mapreduce

Hadoop具有任意、不可拆分、预先存在的二进制文件,hadoop,mapreduce,Hadoop,Mapreduce,我试图在一大组预先存在的二进制文件上运行MapReduce作业。文件已经存在，我无法更改其格式我应该为此编写自己的输入格式吗？我如何制作一个简单的InputFormat，它只返回一个InputStream，这样我就可以处理文件了？我不认为我们有一个内置的InputFormat，它会忽略拆分并向映射器提供整个文件您需要编写自己的自定义InputFormat。您可以找到的详细信息

我试图在一大组预先存在的二进制文件上运行MapReduce作业。文件已经存在，我无法更改其格式

我应该为此编写自己的输入格式吗？我如何制作一个简单的InputFormat，它只返回一个InputStream，这样我就可以处理文件了？

我不认为我们有一个内置的InputFormat，它会忽略拆分并向映射器提供整个文件

您需要编写自己的自定义InputFormat。您可以找到的详细信息