Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ajax/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop cdh 5.8.0上的TestDFSIO基准测试 环境详情:_Hadoop_Benchmarking_Cloudera Cdh - Fatal编程技术网

Hadoop cdh 5.8.0上的TestDFSIO基准测试 环境详情:

Hadoop cdh 5.8.0上的TestDFSIO基准测试 环境详情:,hadoop,benchmarking,cloudera-cdh,Hadoop,Benchmarking,Cloudera Cdh,操作系统:CentOS 7.2 CDH:CDH 5.8.0 主机:11台(2台主机,4个DN+NM,5个NM) 纱线.nodemanager.resource.memory-mb 32074MB(用于nodemanager组1) 82384MB(用于节点管理器组2) 我有一个hadoop集群,有11个节点,2个主节点,4个从节点,运行datanode和nodemanager守护进程,5个节点上只运行nodemanager守护进程。在这个集群上,我正在运行TestDFSIO基准测试作业,负载为8T

操作系统:CentOS 7.2 CDH:CDH 5.8.0 主机:11台(2台主机,4个DN+NM,5个NM)

纱线.nodemanager.resource.memory-mb 32074MB(用于nodemanager组1) 82384MB(用于节点管理器组2)

我有一个hadoop集群,有11个节点,2个主节点,4个从节点,运行datanode和nodemanager守护进程,5个节点上只运行nodemanager守护进程。在这个集群上,我正在运行TestDFSIO基准测试作业,负载为8TB,有10000个文件,每个文件大小为800MB。我注意到了一些我不能完全理解的事情

1) 此作业的拆分数显示为10000。为什么会是10000次拆分,我的dfs.blocksize显示它是128MB,按照这个设置,拆分的数量应该超过10000次,对吗

2) 在ResourceManager Web UI中,我看到在我的5个computenodes(只有nodemanager运行的节点)上,每个节点上只运行了32个映射任务。所有其他映射任务正在4个dn+nm节点上运行。为什么会这样? 我已将9个从属节点分配到两个节点组中。4个dn+nm节点位于nodeManager组1中,其他5个从属节点位于另一个nodeManager组2中。 nodemanager组1中的从属设备的纱线.nodemanager.resource.memory-mb为32074MB,nodemanager组2中的从属设备的纱线.nodemanager.resource.memory-mb为82384MB。我认为理想情况下,nodeManager组2中的5个从属节点应该占用更多的映射时间。但为什么这一切都没有发生

  • afair-TestDFSIO将为每个文件分配一个映射任务。这就是为什么即使块大小更小,最终也会有相同数量的贴图任务

  • 如何配置数据位置?映射者更喜欢数据为本地的节点。这就解释了为什么在数据节点为本地的节点上会有更多的任务

  • afair-TestDFSIO将为每个文件分配一个映射任务。这就是为什么即使块大小更小,最终也会有相同数量的贴图任务

  • 如何配置数据位置?映射者更喜欢数据为本地的节点。这就解释了为什么在数据节点为本地的节点上会有更多的任务


  • 谢谢你的回复。如何检查“如何配置我的数据位置”?是否可以覆盖此数据区域性,以便我的计算节点也将参与作业的执行,从而获得良好的性能?谢谢您的回复。如何检查“如何配置我的数据位置”?是否可以覆盖此数据局部性,以便我的计算节点也将参与作业的执行,从而获得良好的性能?