Python 如何使用pycharm在远程spark集群中运行应用程序

Python 如何使用pycharm在远程spark集群中运行应用程序,python,apache-spark,pyspark,pycharm,Python,Apache Spark,Pyspark,Pycharm,我在本地系统上安装了PyCharm,并将其配置为在windows中以本地模式运行spark应用程序 我的spark cluster在一个远程Ubuntu盒中 如何从本地安装的Windows PyCharm在Ubuntu上的远程spark集群中运行spark应用程序? 我的目标是在远程集群中运行应用程序,因此也欢迎采取变通办法。PyCharm已经为此设置好了。理想情况下,您希望为您的设置设置一个部署和一个远程解释器,理想情况下通过ssh 这允许您将代码库上载到集群(以便pyspark驱动程序可以访

我在本地系统上安装了PyCharm,并将其配置为在windows中以本地模式运行spark应用程序

我的spark cluster在一个远程Ubuntu盒中

如何从本地安装的Windows PyCharm在Ubuntu上的远程spark集群中运行spark应用程序?


我的目标是在远程集群中运行应用程序,因此也欢迎采取变通办法。

PyCharm已经为此设置好了。理想情况下,您希望为您的设置设置一个部署和一个远程解释器,理想情况下通过
ssh

这允许您将代码库上载到集群(以便
pyspark
驱动程序可以访问它),但可以从笔记本电脑上运行它。然后,远程解释器负责解决集群上的依赖关系。 看看这里和这里

注意:在开始配置远程解释器之前,最好在集群上安装
venv
conda
,并创建一个虚拟环境,这样您就不会有任何依赖项或过时的软件包。然后将远程解释器配置指向环境的
python
二进制文件,例如
/app/anaconda3/envs/my_env/bin/python