需要使用Map Reduce/Apache Hadoop处理MS word文档

需要使用Map Reduce/Apache Hadoop处理MS word文档,hadoop,mapreduce,Hadoop,Mapreduce,我一直在做一个Hadoop/MR项目,该项目需要处理MS word文档并从中生成一些输出。该文件的格式如下所示- 第1段 第2段 问题有两个方面- 哪种输入格式适合MS word couments,我理解TeXtInputReader不应该在这里工作,如果我错了,请纠正我。 我需要按段落而不是按行解析文档,所以我需要为此编写自定义RecordReader吗?如果是的话,有没有关于这个的指针? 这方面的任何帮助都会非常有用。这方面的快速帮助将非常有用……你是对的,你需要编写记录阅读器。解析

我一直在做一个Hadoop/MR项目,该项目需要处理MS word文档并从中生成一些输出。该文件的格式如下所示-

第1段

第2段

问题有两个方面-

哪种输入格式适合MS word couments,我理解TeXtInputReader不应该在这里工作,如果我错了,请纠正我。 我需要按段落而不是按行解析文档,所以我需要为此编写自定义RecordReader吗?如果是的话,有没有关于这个的指针?
这方面的任何帮助都会非常有用。

这方面的快速帮助将非常有用……你是对的,你需要编写记录阅读器。解析doc/docx文件时,可以参考。