Map Hadoop InputFormat for Excel

Map Hadoop InputFormat for Excel,map,reduce,Map,Reduce,我需要创建一个地图缩小程序,从HDFS读取Excel文件并对其进行分析。从那里以excel文件的格式存储输出。我知道TextInputFormat用于从HDFS读取.txt文件,但我应该使用哪种方法或哪种inputformat?一般来说,hadoop在这种情况下太过成熟了,但是有一些相关的解决方案 从外部解析文件并转换为与hadoop兼容的格式 将整个文件作为单个记录读取 使用两个链接作业。第1个类似于第2个,批量读取文件,并将每条记录作为下一个作业的输入发出 用例是什么?这是一个单一的输入文件

我需要创建一个地图缩小程序,从HDFS读取Excel文件并对其进行分析。从那里以excel文件的格式存储输出。我知道TextInputFormat用于从HDFS读取.txt文件,但我应该使用哪种方法或哪种inputformat?

一般来说,hadoop在这种情况下太过成熟了,但是有一些相关的解决方案

从外部解析文件并转换为与hadoop兼容的格式

将整个文件作为单个记录读取

使用两个链接作业。第1个类似于第2个,批量读取文件,并将每条记录作为下一个作业的输入发出


用例是什么?这是一个单一的输入文件吗?它的尺寸是多少?您是在excel应用程序中使用它,还是只使用该格式?使用excel适用于相对较小的文件使用hadoop适用于非常大的数据集我只需要从HDFS检索一个excel文件。文件大小为1913KB。我需要在伪分布式单模集群中处理此文件。我们可以直接从hadoop集群读取此excel文件吗。作业配置中需要使用的inputformat类型是什么