Java 如何在pdf和doc文件上运行Hadoop wordcount程序？_Java_Pdf_Hadoop_Word Count

Java 如何在pdf和doc文件上运行Hadoop wordcount程序？

java pdf hadoop

Java 如何在pdf和doc文件上运行Hadoop wordcount程序？,java,pdf,hadoop,word-count,Java,Pdf,Hadoop,Word Count,如何在pdf和doc文件上运行Hadoop wordcount程序？当我尝试在pdf文件上运行它时，输出会显示奇怪的字符。您提到的文件格式是二进制的，如果不将它们预处理为纯文本，就不适合作为word count的输入。您首先必须使用其他工具/库将它们转换为纯文本格式可能有一些免费的命令行实用程序可以帮助您做到这一点。您提到的文件格式是二进制的，如果不将它们预处理为纯文本，就不适合作为word count的输入。您首先必须使用其他工具/库将它们转换为纯文本格式可能有一些免费的命令行实用程序可

如何在pdf和doc文件上运行Hadoop wordcount程序？

当我尝试在pdf文件上运行它时，输出会显示奇怪的字符。

您提到的文件格式是二进制的，如果不将它们预处理为纯文本，就不适合作为word count的输入。您首先必须使用其他工具/库将它们转换为纯文本格式

可能有一些免费的命令行实用程序可以帮助您做到这一点。

您提到的文件格式是二进制的，如果不将它们预处理为纯文本，就不适合作为word count的输入。您首先必须使用其他工具/库将它们转换为纯文本格式

可能有一些免费的命令行实用程序可以帮助您做到这一点。

Hadoop不仅限于处理明文文件，您当然可以处理二进制文件，例如SequenceFile是Hadoop中最常见的二进制格式，但如果您想要自定义二进制格式，也可以通过实现自己的InputFormat和RecordReader来实现

我建议您看看，这一个应该适合您的需要。

我建议您看看，这篇文章应该适合您的需要。

这篇文章可能会帮助您走得更远：这篇文章可能会帮助您走得更远：二进制文件格式不适合作为输入，您需要转换为纯文本的说法是完全错误的，最高效的Hadoop程序使用二进制输入，因为它避免了解析输入的需要，从而提高了效率。二进制文件格式不适合作为输入，需要转换为纯文本的说法是完全错误的，最高效的Hadoop程序使用二进制输入，因为它避免了解析输入的需要，从而提高了效率。