Apache spark Dataproc在使用--properties添加键时添加额外字段?

Apache spark Dataproc在使用--properties添加键时添加额外字段?,apache-spark,hive,google-cloud-dataproc,Apache Spark,Hive,Google Cloud Dataproc,我正在尝试使用-properties字段更新或向dataproc集群中的配置单元配置添加新字段。我正在云shell中运行dataproc集群命令。我看到的是dataproc正在添加带有final的新密钥。我找不到它的意思 <property> <name>hive.compactor.worker.threads</name> <value>1</value> <final>false</f

我正在尝试使用-properties字段更新或向dataproc集群中的配置单元配置添加新字段。我正在云shell中运行dataproc集群命令。我看到的是dataproc正在添加带有final的新密钥。我找不到它的意思

  <property>
    <name>hive.compactor.worker.threads</name>
    <value>1</value>
    <final>false</final>
    <source>Dataproc Cluster Properties</source>
  </property>
dataproc何时将这些更改应用于hive.xml?配置单元服务在群集上开始运行之后还是之前? 此外,我找不到任何文档,说明如何在创建群集后对配置单元配置进行一些更改后重新启动配置单元和spark?

1如果属性标记为final,则用户无法根据每个作业(例如,使用命令行参数或在SparkConf/Configuration中设置属性)覆盖该属性。我们明确地使集群范围的属性可重写

2 Dataproc在启动任何服务之前应用于xml文件

3如果手动更改属性,可以通过ssh将服务相关服务重新启动到集群的主节点并运行sudo systemctl restart。对于hive,这是hive元存储和hive-server2。对于spark,这是spark历史服务器。有几家这样做

4考虑如果要更改属性,请删除和重新创建您的群集。这比解析要重启的服务要容易一些。

5请记住,您仍然可以基于每个作业设置每个作业的配置。如果您使用的是gcloud,这类似于gcloud dataproc jobs submit spark-properties spark.executors.cores=4…其他参数…,使用spark submit可以使用-conf,使用hive可以使用set prop=value。

1如果属性标记为final,用户不能在每个作业的基础上覆盖它,例如使用命令行参数或在SparkConf/Configuration中设置属性。我们明确地使集群范围的属性可重写

2 Dataproc在启动任何服务之前应用于xml文件

3如果手动更改属性,可以通过ssh将服务相关服务重新启动到集群的主节点并运行sudo systemctl restart。对于hive,这是hive元存储和hive-server2。对于spark,这是spark历史服务器。有几家这样做

4考虑如果要更改属性,请删除和重新创建您的群集。这比解析要重启的服务要容易一些。


5请记住,您仍然可以基于每个作业设置每个作业的配置。如果您使用的是gcloud,这就像gcloud dataproc jobs submit spark-properties spark.executors.cores=4…其他参数…,使用spark submit可以使用-conf,使用hive可以使用set prop=value。

我相信dataproc现在已经长大了。它允许用户界面本身的大部分功能以及更多的功能。它允许用户界面本身的大部分功能以及更多功能。