基于hadoop的分布式数据分配

基于hadoop的分布式数据分配,hadoop,replication,Hadoop,Replication,我想问一下hadoop在几个虚拟机和几个物理机上的数据分配。我发现这篇论文设计了分配策略,将文件块的副本分配给不同的物理机器,并保持每个物理机器的块数平衡。因此,确保在一台物理机器(包含多个VM)上不存在所有堆栈的文件块副本 我想试着实施那些文书工作。我一直专注于如何配置那些在由多个VM组成的分布式物理机器上均匀分配的文件块副本。它是在mapreduce算法中编码的还是在hdfs安装中配置的??在纸上,他们说他们将虚拟节点的位置信息添加到网络拓扑中。虚拟节点的网络位置可以从/default ra

我想问一下hadoop在几个虚拟机和几个物理机上的数据分配。我发现这篇论文设计了分配策略,将文件块的副本分配给不同的物理机器,并保持每个物理机器的块数平衡。因此,确保在一台物理机器(包含多个VM)上不存在所有堆栈的文件块副本

我想试着实施那些文书工作。我一直专注于如何配置那些在由多个VM组成的分布式物理机器上均匀分配的文件块副本。它是在mapreduce算法中编码的还是在hdfs安装中配置的??在纸上,他们说他们将虚拟节点的位置信息添加到网络拓扑中。虚拟节点的网络位置可以从/default rack更改为/Phy0。在物理节点的网络位置下添加一层


我不知道,如何在hadoop中配置它们???

hadoop中的这种配置称为机架感知

使用core-site.xml中的属性“topology.script.file.name”配置机架感知

如果未配置“topology.script.file.name”,则为任何ip地址传递/default rack,即所有节点都放置在同一机架上

在hadoop中配置机架感知包括两个步骤

  • 在core-site.xml中配置“topology.script.file.name”

    topology.script.file.name

    core/rack awareness.sh

  • 根据需要执行rack-Aware.sh脚本, 可在此处找到机架感知脚本示例


  • 我如何跟踪这些数据,这些文件块复制均匀分布在物理机器上,确保一台物理机器上没有所有堆叠的文件块复制副本??是否确定我是否按照机架感知配置了均匀分布在物理机器上的文件块复制副本??我想实现的论文来自IEEE:虚拟云中的位置感知MapReduce