Amazon web services 电子病历&x2B;S3:如何实现机架_本地

Amazon web services 电子病历&x2B;S3:如何实现机架_本地,amazon-web-services,amazon-s3,amazon-emr,Amazon Web Services,Amazon S3,Amazon Emr,另外,EMR针对从S3读取/写入S3进行了高度优化,并且在从S3读取时具有机架_本地数据位置。对我来说,这意味着它们总是在同一可用性区域(AZ)内。另一方面,S3没有AZ 无论您的EMR部署在哪个AZ,RACK_LOCAL如何可能与同一个S3存储桶连接?RACK_LOCAL意味着S3和EMR位于同一数据中心内,而AZ是数据中心的集合。这使得理解RACK_LOCAL如何成为可能变得更加困难 从下面的文档页面上看,似乎使用EMRFS的“一致视图”实现了此局部性: 可能重复:根据下面提到的来源,带有E

另外,EMR针对从S3读取/写入S3进行了高度优化,并且在从S3读取时具有机架_本地数据位置。对我来说,这意味着它们总是在同一可用性区域(AZ)内。另一方面,S3没有AZ


无论您的EMR部署在哪个AZ,RACK_LOCAL如何可能与同一个S3存储桶连接?

RACK_LOCAL意味着S3和EMR位于同一数据中心内,而AZ是数据中心的集合。这使得理解RACK_LOCAL如何成为可能变得更加困难

从下面的文档页面上看,似乎使用EMRFS的“一致视图”实现了此局部性:


可能重复:

根据下面提到的来源,带有EMRFS的EMR+S3不维护数据位置,不适合基于SQL等工具的分析处理。对于计算和数据位于同一位置的用例,红移是正确的选择。请参考以下链接中的39:00至42:00:

这一点也在本文中提到。请参阅“每美元绩效”一节


要检查EMR如何与S3协同工作,请参阅KEVIN SCHMIDT&CHRISTOPHER PHILLIPS的《编程弹性map reduce》一书(第1章亚马逊弹性MapReduce与传统Hadoop安装部分)。

这不是重复的,参考答案是关于说EMR和S3是本地的。我的问题是问这是怎么可能的,谢谢你添加更多细节。我仍然不明白RACK_LOCAL是怎么可能的。RACK_LOCAL与硬件配置相关,而EMRFS一致性视图只是写入操作上持久化的元数据。我可以假设EMRFS总是将数据写入EC2所在的同一机架,但读取如何?同样,这可能意味着同一个S3存储桶存储在不同的机架上。啊,你在参考上是对的,我错了。你是对的,这是元数据,但我假设在幕后,这个操作类似于红移频谱在与S3交互时为红移提供的附加功能。对于RACK_LOCAL,似乎没有任何简单的答案,因为Location更像是一个火花项目,而不是一个EMR功能。我觉得询问“X如何在AWS上工作”的范围要求您了解服务的结构。不幸的是,由于我的计划,我无法请求AWS支持,因为我没有创建技术票证的权限。关于元数据,还有一句话——在EMR开始的时候,它不知道从哪个存储桶读取数据。所以元数据不应该有帮助:假设您重新创建了EMR,并且已经有了一些TB的S3数据