Hadoop 拆分BZip2不起作用
我有1.2GB的Hadoop文件,用BZip2编解码器压缩。我们的Hadoop纱线集群有10个节点。HDFS块大小为128 MB,因此我认为该文件被分割为10个块。BZip2应该是可拆分的编解码器,所以我认为当我开始处理输入文件时,Hadoop会执行10个映射任务(每个块一个)。但当我查看作业日志时,我只能看到一个映射任务 我没有发现任何限制纱线中映射器数量的设置(与Hadoop 1相比) 我错过了什么或者我做错了什么Hadoop 拆分BZip2不起作用,hadoop,compression,hdfs,yarn,bzip2,Hadoop,Compression,Hdfs,Yarn,Bzip2,我有1.2GB的Hadoop文件,用BZip2编解码器压缩。我们的Hadoop纱线集群有10个节点。HDFS块大小为128 MB,因此我认为该文件被分割为10个块。BZip2应该是可拆分的编解码器,所以我认为当我开始处理输入文件时,Hadoop会执行10个映射任务(每个块一个)。但当我查看作业日志时,我只能看到一个映射任务 我没有发现任何限制纱线中映射器数量的设置(与Hadoop 1相比) 我错过了什么或者我做错了什么 谢谢我从未使用过BZip2,但我认为这个问题可能与您的fileInputFo
谢谢我从未使用过BZip2,但我认为这个问题可能与您的
fileInputFormat
有关。您可能还需要配置您的fileInputFormat,请看一下