Hadoop 在MapReduce中计算输入拆分

Hadoop 在MapReduce中计算输入拆分,hadoop,mapreduce,hadoop2,input-split,Hadoop,Mapreduce,Hadoop2,Input Split,文件存储在大小为260 MB的HDFS中,而HDFS的默认块大小为64 MB。在对该文件执行map reduce作业时,我发现它创建的输入拆分数量只有4。它是如何计算的。?其余的4MB在哪里。?非常感谢任何输入。输入分割并不总是块大小。输入拆分是数据的逻辑表示。您的输入拆分可能是63mb、67mb、65mb、65mb(或者基于逻辑记录大小的其他大小)。。。请参阅下面链接中的示例 假设逻辑记录的大小仅为几KB。假设文件中的每一行/记录都是1KB,那么它将生成多少个输入分割。?64000个记录将形

文件存储在大小为260 MB的HDFS中,而HDFS的默认块大小为64 MB。在对该文件执行map reduce作业时,我发现它创建的输入拆分数量只有4。它是如何计算的。?其余的4MB在哪里。?非常感谢任何输入。

输入分割并不总是块大小。输入拆分是数据的逻辑表示。您的输入拆分可能是63mb、67mb、65mb、65mb(或者基于逻辑记录大小的其他大小)。。。请参阅下面链接中的示例


假设逻辑记录的大小仅为几KB。假设文件中的每一行/记录都是1KB,那么它将生成多少个输入分割。?64000个记录将形成64mb的一个输入分割。正确,!但是,根据问题中给出的数据,当每行/记录为1KB时,将生成多少个输入拆分。?是4个还是5个拆分?如果所有260MB都是1KB,即260000kb的数据,260000/64000=4.06个输入拆分,但已知记录不会在两个输入拆分之间拆分,预计会在日志中看到~4个输入拆分