需要使用Map Reduce/Apache Hadoop处理MS word文档_Hadoop_Mapreduce

需要使用Map Reduce/Apache Hadoop处理MS word文档

hadoop mapreduce

需要使用Map Reduce/Apache Hadoop处理MS word文档,hadoop,mapreduce,Hadoop,Mapreduce,我一直在做一个Hadoop/MR项目，该项目需要处理MS word文档并从中生成一些输出。该文件的格式如下所示- 第1段第2段问题有两个方面- 哪种输入格式适合MS word couments，我理解TeXtInputReader不应该在这里工作，如果我错了，请纠正我。我需要按段落而不是按行解析文档，所以我需要为此编写自定义RecordReader吗？如果是的话，有没有关于这个的指针？这方面的任何帮助都会非常有用。这方面的快速帮助将非常有用……你是对的，你需要编写记录阅读器。解析

我一直在做一个Hadoop/MR项目，该项目需要处理MS word文档并从中生成一些输出。该文件的格式如下所示-

第1段

第2段

问题有两个方面-

哪种输入格式适合MS word couments，我理解TeXtInputReader不应该在这里工作，如果我错了，请纠正我。我需要按段落而不是按行解析文档，所以我需要为此编写自定义RecordReader吗？如果是的话，有没有关于这个的指针？

这方面的任何帮助都会非常有用。

这方面的快速帮助将非常有用……你是对的，你需要编写记录阅读器。解析doc/docx文件时，可以参考。