Hadoop cdh 5.8.0上的TestDFSIO基准测试环境详情：_Hadoop_Benchmarking_Cloudera Cdh

Hadoop cdh 5.8.0上的TestDFSIO基准测试环境详情：

hadoop

Hadoop cdh 5.8.0上的TestDFSIO基准测试环境详情：,hadoop,benchmarking,cloudera-cdh,Hadoop,Benchmarking,Cloudera Cdh,操作系统：CentOS 7.2 CDH:CDH 5.8.0 主机：11台（2台主机，4个DN+NM，5个NM）纱线.nodemanager.resource.memory-mb 32074MB（用于nodemanager组1） 82384MB（用于节点管理器组2）我有一个hadoop集群，有11个节点，2个主节点，4个从节点，运行datanode和nodemanager守护进程，5个节点上只运行nodemanager守护进程。在这个集群上，我正在运行TestDFSIO基准测试作业，负载为8T

操作系统：CentOS 7.2 CDH:CDH 5.8.0 主机：11台（2台主机，4个DN+NM，5个NM）

纱线.nodemanager.resource.memory-mb 32074MB（用于nodemanager组1） 82384MB（用于节点管理器组2）

我有一个hadoop集群，有11个节点，2个主节点，4个从节点，运行datanode和nodemanager守护进程，5个节点上只运行nodemanager守护进程。在这个集群上，我正在运行TestDFSIO基准测试作业，负载为8TB，有10000个文件，每个文件大小为800MB。我注意到了一些我不能完全理解的事情

1）此作业的拆分数显示为10000。为什么会是10000次拆分，我的dfs.blocksize显示它是128MB，按照这个设置，拆分的数量应该超过10000次，对吗

2）在ResourceManager Web UI中，我看到在我的5个computenodes（只有nodemanager运行的节点）上，每个节点上只运行了32个映射任务。所有其他映射任务正在4个dn+nm节点上运行。为什么会这样？我已将9个从属节点分配到两个节点组中。4个dn+nm节点位于nodeManager组1中，其他5个从属节点位于另一个nodeManager组2中。 nodemanager组1中的从属设备的纱线.nodemanager.resource.memory-mb为32074MB，nodemanager组2中的从属设备的纱线.nodemanager.resource.memory-mb为82384MB。我认为理想情况下，nodeManager组2中的5个从属节点应该占用更多的映射时间。但为什么这一切都没有发生

afair-TestDFSIO将为每个文件分配一个映射任务。这就是为什么即使块大小更小，最终也会有相同数量的贴图任务

如何配置数据位置？映射者更喜欢数据为本地的节点。这就解释了为什么在数据节点为本地的节点上会有更多的任务

afair-TestDFSIO将为每个文件分配一个映射任务。这就是为什么即使块大小更小，最终也会有相同数量的贴图任务

如何配置数据位置？映射者更喜欢数据为本地的节点。这就解释了为什么在数据节点为本地的节点上会有更多的任务

谢谢你的回复。如何检查“如何配置我的数据位置”？是否可以覆盖此数据区域性，以便我的计算节点也将参与作业的执行，从而获得良好的性能？谢谢您的回复。如何检查“如何配置我的数据位置”？是否可以覆盖此数据局部性，以便我的计算节点也将参与作业的执行，从而获得良好的性能？