需要帮助了解使用Hadoop处理小型数据集的MR数据吗

需要帮助了解使用Hadoop处理小型数据集的MR数据吗,hadoop,mapreduce,Hadoop,Mapreduce,需要帮助了解使用Hadoop处理小型数据集的MR数据 请考虑以下假设情景: 1) Input Data to be processed : 100 MB 2) Block Size : 64 MB 3) Replication Factor : 2 4) Cluster Size : 2 (Data Node 1 and Data Node 2) 数据节点1中的数据将拆分为64MB+36MB总计100MB的输入数据 复制的数据将在数据节点2中以及64 MB+36 MB中可用 问题: 请帮助理解

需要帮助了解使用Hadoop处理小型数据集的MR数据

请考虑以下假设情景:

1) Input Data to be processed : 100 MB
2) Block Size : 64 MB
3) Replication Factor : 2
4) Cluster Size : 2 (Data Node 1 and Data Node 2)
数据节点1中的数据将拆分为64MB+36MB总计100MB的输入数据 复制的数据将在数据节点2中以及64 MB+36 MB中可用

问题:

请帮助理解如何处理64 MB和36 MB数据? 将仅从DataNode1处理整个数据。如果DataNode1发生故障,DataNode2将仅用于备份

DataNode2是否也用于处理数据?
如果这个问题需要更多解释,请告诉我。

是的,它将使用两个数据节点。所以映射器的数量将始终等于拆分的数量,除非您使用属性或驱动程序代码对其进行限制。有关详细信息,请参阅。

视情况而定。如果您有一个gzip文件作为输入,那么不管它有两个块,它都将完全由单个节点上的单个映射器处理。如果在两个DataNode上运行,则它们有足够的内存来启动2个映射器任务,并且集群处于安静状态,并且没有其他任务正在运行,则很可能两个映射器都在同一节点上启动