Python 如何启动存储在GCP bucket中的submit.py文件？_Python_Apache Spark_Google Cloud Platform_Pyspark_Spark Submit

Python 如何启动存储在GCP bucket中的submit.py文件？

python apache-spark google-cloud-platform pyspark

Python 如何启动存储在GCP bucket中的submit.py文件？,python,apache-spark,google-cloud-platform,pyspark,spark-submit,Python,Apache Spark,Google Cloud Platform,Pyspark,Spark Submit,我正在尝试运行此文件.py文件。我已将dsgd_mf.py文件复制到GCP存储桶中。所需的输入数据文件也在我的bucket中。如何提交并获得输出？（）我在GCP上运行Jupyter笔记本，并安装了gcloud SDK。除了创建集群并运行Jupiter笔记本外，我还没有做任何其他改变。我看到了一些处理.jar文件的选项，但我不知道，并且有任何.jar文件需要指定或链接。我是新来的，如果您能快速帮助我，我将不胜感激。请访问链接查看脚本文件。我需要帮助才能在谷歌云平台上运行此功能。您是否在Datap

我正在尝试运行此文件.py文件。我已将dsgd_mf.py文件复制到GCP存储桶中。所需的输入数据文件也在我的bucket中。如何提交并获得输出？（）

我在GCP上运行Jupyter笔记本，并安装了gcloud SDK。除了创建集群并运行Jupiter笔记本外，我还没有做任何其他改变。我看到了一些处理.jar文件的选项，但我不知道，并且有任何.jar文件需要指定或链接。我是新来的，如果您能快速帮助我，我将不胜感激。请访问链接查看脚本文件。我需要帮助才能在谷歌云平台上运行此功能。

您是否在Dataproc上运行此功能？如果是这样的话，您应该能够提交pyspark作业，其中包含以下内容：

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}

不过值得一提的是，使用pyspark jupyter内核将阻止作业启动（即，日志将显示作业正在反复等待资源）