Amazon web services 设置Jupyter Pyspark在EC2和EMR之间工作_Amazon Web Services_Apache Spark_Amazon Ec2_Pyspark_Jupyter Notebook

Amazon web services 设置Jupyter Pyspark在EC2和EMR之间工作

amazon-web-services apache-spark amazon-ec2 pyspark jupyter-notebook

Amazon web services 设置Jupyter Pyspark在EC2和EMR之间工作,amazon-web-services,apache-spark,amazon-ec2,pyspark,jupyter-notebook,Amazon Web Services,Apache Spark,Amazon Ec2,Pyspark,Jupyter Notebook,我有一个火花束在EMR中运行。我还有一个jupyter笔记本在第二台EC2机器上运行。我想通过jupyter在我的EC2实例上使用spark。我正在寻找有关如何配置spark以从EC2访问EMR集群的参考资料。搜索只为我提供了如何在EMR或EC2上设置spark的指南，而没有提供如何从另一个访问spark的指南我在这里看到了一个类似的问题：但是，那里的安装程序使用引导操作来安装齐柏林飞艇，我不知道如何在EC2上编辑我的hadoop配置。正确的方法是在主节点（分配为主节点的EC2实例）中运行

我有一个火花束在EMR中运行。我还有一个jupyter笔记本在第二台EC2机器上运行。我想通过jupyter在我的EC2实例上使用spark。我正在寻找有关如何配置spark以从EC2访问EMR集群的参考资料。搜索只为我提供了如何在EMR或EC2上设置spark的指南，而没有提供如何从另一个访问spark的指南

我在这里看到了一个类似的问题：

但是，那里的安装程序使用引导操作来安装齐柏林飞艇，我不知道如何在EC2上编辑我的hadoop配置。

正确的方法是在主节点（分配为主节点的EC2实例）中运行jupyter，然后在那里提交spark应用程序

您可以使用EMR笔记本电脑，它完全满足您的需求。它位于集群外部，您可以连接到您选择的任何EMR集群

详情如下：

您还可以在笔记本中添加Pyspark作业所需的任何Python依赖项。这些将在EMR集群上可用，并在您自己的笔记本会话中隔离

这里有更多详细信息：

您应该可以设置Spark

master==IP[X]

。只需确保您的安全组已设置为允许您这样做。