Hive 在作业执行期间启动的映射程序

Hive 在作业执行期间启动的映射程序,hive,mapreduce,hdfs,hadoop2,Hive,Mapreduce,Hdfs,Hadoop2,配置单元分区有4个文件,如下所示: 我有一个256mb的文件-在HDFS上占用2个块 另一个150mb的文件-占用HDFS上的2个块 另一个260 mb的文件-占用HDFS上的3个块 另一个64mb的文件-占用HDFS上的1个块 HDFS默认块大小为128mb 如果在ablove分区上执行mapreduce操作 我的InputSplit大小是多少? 将推出多少地图绘制程序 我的作业是否只有4个映射器,因为在小文件中,映射器是根据多个小文件创建的 我的工作会有8个映射器吗?因为我的4个文件分布在H

配置单元分区有4个文件,如下所示:

  • 我有一个256mb的文件-在HDFS上占用2个块
  • 另一个150mb的文件-占用HDFS上的2个块
  • 另一个260 mb的文件-占用HDFS上的3个块
  • 另一个64mb的文件-占用HDFS上的1个块
  • HDFS默认块大小为128mb

    如果在ablove分区上执行mapreduce操作 我的InputSplit大小是多少? 将推出多少地图绘制程序

    我的作业是否只有4个映射器,因为在小文件中,映射器是根据多个小文件创建的

    我的工作会有8个映射器吗?因为我的4个文件分布在HDFS上的8个块上 我的4块(第二个文件是128mb(第三块)+22mb(第四块))(只有22mb)是否会与最后一个文件和forms 1 inputsplit合并

    我试着搜索了很多博客,我仍然有这种困惑