Python 如何启动存储在GCP bucket中的submit.py文件?
我正在尝试运行此文件.py文件。我已将dsgd_mf.py文件复制到GCP存储桶中。所需的输入数据文件也在我的bucket中。如何提交并获得输出?()Python 如何启动存储在GCP bucket中的submit.py文件?,python,apache-spark,google-cloud-platform,pyspark,spark-submit,Python,Apache Spark,Google Cloud Platform,Pyspark,Spark Submit,我正在尝试运行此文件.py文件。我已将dsgd_mf.py文件复制到GCP存储桶中。所需的输入数据文件也在我的bucket中。如何提交并获得输出?() 我在GCP上运行Jupyter笔记本,并安装了gcloud SDK。除了创建集群并运行Jupiter笔记本外,我还没有做任何其他改变。我看到了一些处理.jar文件的选项,但我不知道,并且有任何.jar文件需要指定或链接。我是新来的,如果您能快速帮助我,我将不胜感激。请访问链接查看脚本文件。我需要帮助才能在谷歌云平台上运行此功能。您是否在Datap
我在GCP上运行Jupyter笔记本,并安装了gcloud SDK。除了创建集群并运行Jupiter笔记本外,我还没有做任何其他改变。我看到了一些处理.jar文件的选项,但我不知道,并且有任何.jar文件需要指定或链接。我是新来的,如果您能快速帮助我,我将不胜感激。请访问链接查看脚本文件。我需要帮助才能在谷歌云平台上运行此功能。您是否在Dataproc上运行此功能?如果是这样的话,您应该能够提交pyspark作业,其中包含以下内容:
gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}
不过值得一提的是,使用pyspark jupyter内核将阻止作业启动(即,日志将显示作业正在反复等待资源)