Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何启动存储在GCP bucket中的submit.py文件?_Python_Apache Spark_Google Cloud Platform_Pyspark_Spark Submit - Fatal编程技术网

Python 如何启动存储在GCP bucket中的submit.py文件?

Python 如何启动存储在GCP bucket中的submit.py文件?,python,apache-spark,google-cloud-platform,pyspark,spark-submit,Python,Apache Spark,Google Cloud Platform,Pyspark,Spark Submit,我正在尝试运行此文件.py文件。我已将dsgd_mf.py文件复制到GCP存储桶中。所需的输入数据文件也在我的bucket中。如何提交并获得输出?() 我在GCP上运行Jupyter笔记本,并安装了gcloud SDK。除了创建集群并运行Jupiter笔记本外,我还没有做任何其他改变。我看到了一些处理.jar文件的选项,但我不知道,并且有任何.jar文件需要指定或链接。我是新来的,如果您能快速帮助我,我将不胜感激。请访问链接查看脚本文件。我需要帮助才能在谷歌云平台上运行此功能。您是否在Datap

我正在尝试运行此文件.py文件。我已将dsgd_mf.py文件复制到GCP存储桶中。所需的输入数据文件也在我的bucket中。如何提交并获得输出?()


我在GCP上运行Jupyter笔记本,并安装了gcloud SDK。除了创建集群并运行Jupiter笔记本外,我还没有做任何其他改变。我看到了一些处理.jar文件的选项,但我不知道,并且有任何.jar文件需要指定或链接。我是新来的,如果您能快速帮助我,我将不胜感激。请访问链接查看脚本文件。我需要帮助才能在谷歌云平台上运行此功能。

您是否在Dataproc上运行此功能?如果是这样的话,您应该能够提交pyspark作业,其中包含以下内容:

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}
不过值得一提的是,使用pyspark jupyter内核将阻止作业启动(即,日志将显示作业正在反复等待资源)