Hadoop mapred.min.split.size

Hadoop mapred.min.split.size,hadoop,mapreduce,hdfs,Hadoop,Mapreduce,Hdfs,我试图在MapReduce中试验这个参数,我有一些问题 无论是否被压缩,它都会按照HDFS中的大小进行计算吗?还是在解压之后?我猜是前者,但我想确认一下 仅当您的输入格式支持拆分输入文件时,才会使用此参数。常见的压缩编解码器(如gzip)不支持拆分文件,因此这将被忽略 如果输入格式不支持拆分,则这与压缩大小有关。仅当输入格式支持拆分输入文件时,才会使用此参数。常见的压缩编解码器(如gzip)不支持拆分文件,因此这将被忽略 如果输入格式确实支持拆分,那么这与压缩大小有关。来自Hadoop 0.21

我试图在MapReduce中试验这个参数,我有一些问题


无论是否被压缩,它都会按照HDFS中的大小进行计算吗?还是在解压之后?我猜是前者,但我想确认一下

仅当您的输入格式支持拆分输入文件时,才会使用此参数。常见的压缩编解码器(如gzip)不支持拆分文件,因此这将被忽略


如果输入格式不支持拆分,则这与压缩大小有关。

仅当输入格式支持拆分输入文件时,才会使用此参数。常见的压缩编解码器(如gzip)不支持拆分文件,因此这将被忽略


如果输入格式确实支持拆分,那么这与压缩大小有关。

来自Hadoop 0.21,我认为bz2文件是可拆分的。所以你可以使用bz2

在Hadoop 0.21中,我认为bz2文件是可拆分的。所以你可以使用bz2