Hadoop Pig-使用Pig加载Word文档（.doc&；docx）_Hadoop_Mapreduce_Bigdata_Apache Pig

Hadoop Pig-使用Pig加载Word文档（.doc&；docx）

hadoop mapreduce apache-pig

Hadoop Pig-使用Pig加载Word文档（.doc&；docx）,hadoop,mapreduce,bigdata,apache-pig,Hadoop,Mapreduce,Bigdata,Apache Pig,无法使用pig加载Microsoft Word文档（.doc或.docx）。事实上，当我尝试这样做时，通过使用TextLoader（）、PigStorage（）或根本不使用加载器，它是不起作用的。输出是一些奇怪的符号我听说我可以用JAVA编写一个自定义加载程序，但这似乎真的很难，我现在不知道如何编写这些程序我想把所有的.doc文件内容放在一个单独的字符包中，这样我以后就可以使用过滤功能来处理它了我怎么办谢谢，他们说得对。由于.doc和.docx是二进制格式，简单的文本加载器无法工作。您可

无法使用pig加载Microsoft Word文档（.doc或.docx）。事实上，当我尝试这样做时，通过使用TextLoader（）、PigStorage（）或根本不使用加载器，它是不起作用的。输出是一些奇怪的符号

我听说我可以用JAVA编写一个自定义加载程序，但这似乎真的很难，我现在不知道如何编写这些程序

我想把所有的.doc文件内容放在一个单独的字符包中，这样我以后就可以使用过滤功能来处理它了

我怎么办

谢谢，他们说得对。由于.doc和.docx是二进制格式，简单的文本加载器无法工作。您可以编写UDF，以便能够将文件直接加载到Pig中，也可以进行一些预处理，将所有.doc和.docx文件转换为.txt文件，以便Pig将加载这些.txt文件。链接可以帮助您开始寻找转换文件的方法

然而，我仍然建议学习编写UDF。预处理文件将增加可以避免的大量开销

更新：以下是我过去编写java（Load）UDF时使用的一些资源

谢谢你的回答。你知道我在哪里可以找到编写UDF的简单好教程吗？@shanks\u roux我已经添加了一些资源。它们不会明确地引导您完成整个过程，但您应该能够将它们拼接在一起。