Google cloud platform 如何在Google云平台Spark Scala作业中传递配置文件参数?

Google cloud platform 如何在Google云平台Spark Scala作业中传递配置文件参数?,google-cloud-platform,google-cloud-dataproc,Google Cloud Platform,Google Cloud Dataproc,我在GCPDataproc集群上部署了Spark Scala作业。如何使用Web UI将配置文件作为参数传递给Spark Submit查询 我假设您指的是与dataproc集群中运行的Spark作业相同的内容。为了做到这一点,您必须覆盖默认情况下包含在dataproc集群中的spark defaults.conf文件。这必须在集群创建步骤中完成,但无法通过Web UI直接完成。相反,您需要在gcloud dataproc clusters create命令中将新配置文件作为--propertie

我在GCPDataproc集群上部署了Spark Scala作业。如何使用Web UI将配置文件作为参数传递给Spark Submit查询

我假设您指的是与dataproc集群中运行的Spark作业相同的内容。为了做到这一点,您必须覆盖默认情况下包含在dataproc集群中的
spark defaults.conf
文件。这必须在集群创建步骤中完成,但无法通过Web UI直接完成。相反,您需要在
gcloud dataproc clusters create
命令中将新配置文件作为
--properties
标志的值传递,如下所示:

gcloud dataproc clusters create $CLUSTER_NAME --properties=spark:spark.executor.extraJavaOptions=yourfile.conf
实际上,您甚至不必自己开始编写
gcloud
命令,您可以在控制台/Web UI“创建集群”视图中填写所有内容,单击页面底部的“等效命令行”,添加
--properties=…
部分,然后从shell运行它

更新


在上面的回答中,我将重点放在您想要使用配置文件的事实上。但是,如果您确实想在作业级别上通过控制台编辑配置参数,您也可以通过提供键:值属性对来进行编辑,该属性对将覆盖
spark defaults.conf
文件中的属性对。

您必须显示您尝试过的内容。如果没有其他详细信息,我无法回答此问题。接下来的信息将有助于给出答案:1)您希望作为参数传递哪个配置文件?2) 此配置和参数是否适用于您的工作,而不是Spark?3) 您将如何使用
spark submit
命令执行相同操作?