Hadoop Pig-使用Pig加载Word文档(.doc&;docx)

Hadoop Pig-使用Pig加载Word文档(.doc&;docx),hadoop,mapreduce,bigdata,apache-pig,Hadoop,Mapreduce,Bigdata,Apache Pig,无法使用pig加载Microsoft Word文档(.doc或.docx)。事实上,当我尝试这样做时,通过使用TextLoader()、PigStorage()或根本不使用加载器,它是不起作用的。输出是一些奇怪的符号 我听说我可以用JAVA编写一个自定义加载程序,但这似乎真的很难,我现在不知道如何编写这些程序 我想把所有的.doc文件内容放在一个单独的字符包中,这样我以后就可以使用过滤功能来处理它了 我怎么办 谢谢,他们说得对。由于.doc和.docx是二进制格式,简单的文本加载器无法工作。您可

无法使用pig加载Microsoft Word文档(.doc或.docx)。事实上,当我尝试这样做时,通过使用TextLoader()、PigStorage()或根本不使用加载器,它是不起作用的。输出是一些奇怪的符号

我听说我可以用JAVA编写一个自定义加载程序,但这似乎真的很难,我现在不知道如何编写这些程序

我想把所有的.doc文件内容放在一个单独的字符包中,这样我以后就可以使用过滤功能来处理它了

我怎么办


谢谢,他们说得对。由于.doc和.docx是二进制格式,简单的文本加载器无法工作。您可以编写UDF,以便能够将文件直接加载到Pig中,也可以进行一些预处理,将所有.doc和.docx文件转换为.txt文件,以便Pig将加载这些.txt文件。链接可以帮助您开始寻找转换文件的方法

然而,我仍然建议学习编写UDF。预处理文件将增加可以避免的大量开销


更新:以下是我过去编写java(Load)UDF时使用的一些资源

谢谢你的回答。你知道我在哪里可以找到编写UDF的简单好教程吗?@shanks\u roux我已经添加了一些资源。它们不会明确地引导您完成整个过程,但您应该能够将它们拼接在一起。