云计算中Hadoop的数据局部性

云计算中Hadoop的数据局部性,hadoop,amazon-web-services,mapreduce,cloud,Hadoop,Amazon Web Services,Mapreduce,Cloud,目前,Hadoop通过将任务分配给包含数据或靠近包含数据的节点(例如,同一机架)来实现数据局部性。但是,我想知道,在云计算中是否可以应用相同的概念,在云计算中,Hadoop部署在一组虚拟机上,因为有关物理层的信息可能不可用,例如,哪些物理机当前托管这些VM。在大多数云环境中,您完全失去了Hadoop的数据局部性优势,因为存储通常通过网络连接到虚拟机 Hadoop有一些虚拟扩展,允许指定共享相同物理基础设施(即存储和计算)的虚拟主机,这样Hadoop可以“虚拟感知”底层硬件——但这些扩展往往只存在

目前,Hadoop通过将任务分配给包含数据或靠近包含数据的节点(例如,同一机架)来实现数据局部性。但是,我想知道,在云计算中是否可以应用相同的概念,在云计算中,Hadoop部署在一组虚拟机上,因为有关物理层的信息可能不可用,例如,哪些物理机当前托管这些VM。

在大多数云环境中,您完全失去了Hadoop的数据局部性优势,因为存储通常通过网络连接到虚拟机

Hadoop有一些虚拟扩展,允许指定共享相同物理基础设施(即存储和计算)的虚拟主机,这样Hadoop可以“虚拟感知”底层硬件——但这些扩展往往只存在于1)prem私有云或(更可能)2)Hadoop PaaS环境中