单词计数Hadoop示例

单词计数Hadoop示例,hadoop,Hadoop,我在Hadoop(版本:0.20.3-dev)附带的41 GB文件(默认配置设置)上运行word count ex。但这段代码为小文件提供了正确的输出,但为41GB文件提供了一些垃圾。为什么会发生这种情况?谢谢大家。它可能会创建错误的输出,因为Hadoop默认情况下不知道您的文件格式,它将每个文件都视为简单的文本文件。检查您的输入文件。。通过手动计算进行检查,您将意识到它不是垃圾。我的输出文件内容===>�)这是Hadoop附带的标准字数示例(Hadoop-0.20.2-examples.jar

我在Hadoop(版本:0.20.3-dev)附带的41 GB文件(默认配置设置)上运行word count ex。但这段代码为小文件提供了正确的输出,但为41GB文件提供了一些垃圾。为什么会发生这种情况?

谢谢大家。它可能会创建错误的输出,因为Hadoop默认情况下不知道您的文件格式,它将每个文件都视为简单的文本文件。

检查您的输入文件。。通过手动计算进行检查,您将意识到它不是垃圾。我的输出文件内容===>�)这是Hadoop附带的标准字数示例(Hadoop-0.20.2-examples.jar)。您有足够的空间吗?是的,足够了。。