Python 如何在AWS Spark群集中安装代码和依赖项?

Python 如何在AWS Spark群集中安装代码和依赖项?,python,amazon-web-services,amazon-ec2,apache-spark,pip,Python,Amazon Web Services,Amazon Ec2,Apache Spark,Pip,我可以在AWS上创建一个Spark群集,如下所述 但是,我自己的Python代码和pip库需要在master和worker上运行。这是大量的代码,pip安装过程也编译了一些本机库,因此我不能简单地让Spark在运行时使用或之类的技术分发这些代码 当然,我可以在运行aws emr create cluster之后立即运行bash脚本,但我想知道是否有更自动化的方法,这样我就可以避免维护大型bash脚本进行安装 那么,设置集群以包含我的代码和依赖项的最佳方法是什么?您可以编写/运行json文件来执行

我可以在AWS上创建一个Spark群集,如下所述

但是,我自己的Python代码和pip库需要在master和worker上运行。这是大量的代码,pip安装过程也编译了一些本机库,因此我不能简单地让Spark在运行时使用或之类的技术分发这些代码

当然,我可以在运行
aws emr create cluster
之后立即运行bash脚本,但我想知道是否有更自动化的方法,这样我就可以避免维护大型bash脚本进行安装


那么,设置集群以包含我的代码和依赖项的最佳方法是什么?

您可以编写/运行json文件来执行bash脚本(使其看起来自动),我也遇到了类似的问题,但还没有找到其他方法。我相信这个问题在可能的