Java 如何在pdf和doc文件上运行Hadoop wordcount程序?

Java 如何在pdf和doc文件上运行Hadoop wordcount程序?,java,pdf,hadoop,word-count,Java,Pdf,Hadoop,Word Count,如何在pdf和doc文件上运行Hadoop wordcount程序? 当我尝试在pdf文件上运行它时,输出会显示奇怪的字符。您提到的文件格式是二进制的,如果不将它们预处理为纯文本,就不适合作为word count的输入。您首先必须使用其他工具/库将它们转换为纯文本格式 可能有一些免费的命令行实用程序可以帮助您做到这一点。您提到的文件格式是二进制的,如果不将它们预处理为纯文本,就不适合作为word count的输入。您首先必须使用其他工具/库将它们转换为纯文本格式 可能有一些免费的命令行实用程序可

如何在pdf和doc文件上运行Hadoop wordcount程序?
当我尝试在pdf文件上运行它时,输出会显示奇怪的字符。

您提到的文件格式是二进制的,如果不将它们预处理为纯文本,就不适合作为word count的输入。您首先必须使用其他工具/库将它们转换为纯文本格式


可能有一些免费的命令行实用程序可以帮助您做到这一点。

您提到的文件格式是二进制的,如果不将它们预处理为纯文本,就不适合作为word count的输入。您首先必须使用其他工具/库将它们转换为纯文本格式


可能有一些免费的命令行实用程序可以帮助您做到这一点。

Hadoop不仅限于处理明文文件,您当然可以处理二进制文件,例如SequenceFile是Hadoop中最常见的二进制格式,但如果您想要自定义二进制格式,也可以通过实现自己的InputFormat和RecordReader来实现


我建议您看看,这一个应该适合您的需要。

Hadoop不仅限于处理明文文件,您当然可以处理二进制文件,例如SequenceFile是Hadoop中最常见的二进制格式,但如果您想要自定义二进制格式,也可以通过实现自己的InputFormat和RecordReader来实现


我建议您看看,这篇文章应该适合您的需要。

这篇文章可能会帮助您走得更远:这篇文章可能会帮助您走得更远:二进制文件格式不适合作为输入,您需要转换为纯文本的说法是完全错误的,最高效的Hadoop程序使用二进制输入,因为它避免了解析输入的需要,从而提高了效率。二进制文件格式不适合作为输入,需要转换为纯文本的说法是完全错误的,最高效的Hadoop程序使用二进制输入,因为它避免了解析输入的需要,从而提高了效率。