Amazon web services 为什么专用子网中的EMR需要完全出站internet访问
下面链接上的AWS文档要求允许在专用子网中的群集的EMR主安全组上完全出站internet访问Amazon web services 为什么专用子网中的EMR需要完全出站internet访问,amazon-web-services,amazon-emr,aws-security-group,private-subnet,Amazon Web Services,Amazon Emr,Aws Security Group,Private Subnet,下面链接上的AWS文档要求允许在专用子网中的群集的EMR主安全组上完全出站internet访问 但是,完全出站访问会带来风险。这种完全出站internet访问背后的基本原理是什么?该文档指出,如果您不提供完全出站访问,最低要求是向“专用子网中服务访问的托管安全组的组ID”提供TCP 9443 这意味着该实例将需要与Amazon EMR“服务”通信,很可能是为了建立一个可以接收命令以运行作业的连接。以下是我在与AWS支持进行连接后可以收集到的信息: 安全组上的出站规则仅在群集节点启动到外部IP(
但是,完全出站访问会带来风险。这种完全出站internet访问背后的基本原理是什么?该文档指出,如果您不提供完全出站访问,最低要求是向“专用子网中服务访问的托管安全组的组ID”提供TCP 9443
这意味着该实例将需要与Amazon EMR“服务”通信,很可能是为了建立一个可以接收命令以运行作业的连接。以下是我在与AWS支持进行连接后可以收集到的信息: 安全组上的出站规则仅在群集节点启动到外部IP(即任何IP,而不是本地主机/其自己的专用IP)的新连接时适用。这就是为什么我们提供对出站连接的无限制访问,因为它们是由节点本身启动的 重要的是要了解,当您的群集启动时,它需要连接到S3以下载必要的repo、上载/下载日志、群集信息等。此外,EMR中的应用程序配置阶段包括成功配置许多内部服务/组件(如资源管理器、名称节点、节点管理器、数据节点等),它们都在群集本身的不同随机端口上运行,因此有必要允许主节点和从节点/核心节点安全组之间的所有TCP通信。此外,主节点通过SSL进行大多数实例控制器通信和其他群集管理器组件的通信,以配置必要的软件并且还交换心跳信号,因此需要打开443和80个端口 此外,Hadoop与不同的应用程序对话,其中每个应用程序都运行在各自独特的端口以及不同的专用IP地址上,因为群集添加或删除了更多节点。因此,我们无法提供可为群集操作打开的特定端口的列表,因为端口和协议要求因应用程序而异如果节点无法相互通信,或在所需端口(包括临时端口范围)上存在任何其他外部依赖关系,则在EMR群集上配置的离子和EMR群集上的任务可能会失败 因此,请注意,托管安全组出口规则的建议配置为0.0.0.0/0,特别是在群集启动期间,因为限制它可能会使EMR无法下载所需的应用程序,从而导致群集供应失败 但是,我知道您正在寻找最低建议设置,以便在“Amazon EMR–托管安全组”上配置出站规则,而不是0.0.0.0/0(所有流量),因为这可能会带来安全风险 <> P>在群集启动期间不做任何更改是非常可取的。即使在启动群集之后,如果出站安全组规则没有被正确配置,它也可能产生问题。在群集成功启动之后,您可以更新安全组规则。但下面是我们需要考虑的几件事情:BeFo。我们正在这样做- 不建议在群集启动期间进行任何更改: