Amazon web services 设置Jupyter Pyspark在EC2和EMR之间工作

Amazon web services 设置Jupyter Pyspark在EC2和EMR之间工作,amazon-web-services,apache-spark,amazon-ec2,pyspark,jupyter-notebook,Amazon Web Services,Apache Spark,Amazon Ec2,Pyspark,Jupyter Notebook,我有一个火花束在EMR中运行。我还有一个jupyter笔记本在第二台EC2机器上运行。我想通过jupyter在我的EC2实例上使用spark。我正在寻找有关如何配置spark以从EC2访问EMR集群的参考资料。搜索只为我提供了如何在EMR或EC2上设置spark的指南,而没有提供如何从另一个访问spark的指南 我在这里看到了一个类似的问题: 但是,那里的安装程序使用引导操作来安装齐柏林飞艇,我不知道如何在EC2上编辑我的hadoop配置。正确的方法是在主节点(分配为主节点的EC2实例)中运行

我有一个火花束在EMR中运行。我还有一个jupyter笔记本在第二台EC2机器上运行。我想通过jupyter在我的EC2实例上使用spark。我正在寻找有关如何配置spark以从EC2访问EMR集群的参考资料。搜索只为我提供了如何在EMR或EC2上设置spark的指南,而没有提供如何从另一个访问spark的指南

我在这里看到了一个类似的问题:


但是,那里的安装程序使用引导操作来安装齐柏林飞艇,我不知道如何在EC2上编辑我的hadoop配置。

正确的方法是在主节点(分配为主节点的EC2实例)中运行jupyter,然后在那里提交spark应用程序

您可以使用EMR笔记本电脑,它完全满足您的需求。它位于集群外部,您可以连接到您选择的任何EMR集群

详情如下:

您还可以在笔记本中添加Pyspark作业所需的任何Python依赖项。这些将在EMR集群上可用,并在您自己的笔记本会话中隔离


这里有更多详细信息:

您应该可以设置Spark
master==IP[X]
。只需确保您的安全组已设置为允许您这样做。