需要帮助了解使用Hadoop处理小型数据集的MR数据吗_Hadoop_Mapreduce

需要帮助了解使用Hadoop处理小型数据集的MR数据吗

hadoop mapreduce

需要帮助了解使用Hadoop处理小型数据集的MR数据吗,hadoop,mapreduce,Hadoop,Mapreduce,需要帮助了解使用Hadoop处理小型数据集的MR数据请考虑以下假设情景： 1) Input Data to be processed : 100 MB 2) Block Size : 64 MB 3) Replication Factor : 2 4) Cluster Size : 2 (Data Node 1 and Data Node 2) 数据节点1中的数据将拆分为64MB+36MB总计100MB的输入数据复制的数据将在数据节点2中以及64 MB+36 MB中可用问题: 请帮助理解

需要帮助了解使用Hadoop处理小型数据集的MR数据

请考虑以下假设情景：

1) Input Data to be processed : 100 MB
2) Block Size : 64 MB
3) Replication Factor : 2
4) Cluster Size : 2 (Data Node 1 and Data Node 2)

数据节点1中的数据将拆分为64MB+36MB总计100MB的输入数据复制的数据将在数据节点2中以及64 MB+36 MB中可用

问题:

请帮助理解如何处理64 MB和36 MB数据？将仅从DataNode1处理整个数据。如果DataNode1发生故障，DataNode2将仅用于备份

或

DataNode2是否也用于处理数据？

如果这个问题需要更多解释，请告诉我。

是的，它将使用两个数据节点。所以映射器的数量将始终等于拆分的数量，除非您使用属性或驱动程序代码对其进行限制。有关详细信息，请参阅。

视情况而定。如果您有一个gzip文件作为输入，那么不管它有两个块，它都将完全由单个节点上的单个映射器处理。如果在两个DataNode上运行，则它们有足够的内存来启动2个映射器任务，并且集群处于安静状态，并且没有其他任务正在运行，则很可能两个映射器都在同一节点上启动