Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/assembly/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Debugging 为什么一个mapreduce作业的本地字节写入值比其他作业大得多?_Debugging_Hadoop_Mapreduce_Bigdata - Fatal编程技术网

Debugging 为什么一个mapreduce作业的本地字节写入值比其他作业大得多?

Debugging 为什么一个mapreduce作业的本地字节写入值比其他作业大得多?,debugging,hadoop,mapreduce,bigdata,Debugging,Hadoop,Mapreduce,Bigdata,我写了一个mapreduce进程,发现一个reduce作业比其他所有的map作业都要慢。然后我发现写的本地字节是:2159972481,大约是其他的十倍。这是什么意思,为什么? 如何解决这个问题? 谢谢。就像@mbaxi所说的,很可能是您的文件倾斜了。映射输出中的记录使用散列函数分布在键上。因此,如果您的文件是倾斜的,您将有reduce节点比其他节点做更多的工作。这有意义吗?原因可能是您的数据对于某个特定的键是倾斜的,您应该检查地图输出键和每个键的数据。是的,我发现输出是倾斜的。但是当我更改地图

我写了一个mapreduce进程,发现一个reduce作业比其他所有的map作业都要慢。然后我发现写的本地字节是:2159972481,大约是其他的十倍。这是什么意思,为什么? 如何解决这个问题?
谢谢。

就像@mbaxi所说的,很可能是您的文件倾斜了。映射输出中的记录使用散列函数分布在键上。因此,如果您的文件是倾斜的,您将有reduce节点比其他节点做更多的工作。这有意义吗?

原因可能是您的数据对于某个特定的键是倾斜的,您应该检查地图输出键和每个键的数据。是的,我发现输出是倾斜的。但是当我更改地图文件时,其中只有一个打印功能。。。对于“cat”,结果是可以的。真奇怪。。。