Google Dataproc Pyspark属性

Google Dataproc Pyspark属性,pyspark,google-cloud-platform,google-cloud-dataproc,Pyspark,Google Cloud Platform,Google Cloud Dataproc,我正在尝试将pyspark提交到google dataproc集群,并希望在命令行中指定pyspark配置的属性。文档中说,我可以使用--properties标志指定这些属性。我尝试运行的命令如下所示: gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster —-properties=executor-memory=10G --properties=driver-memory=46G --propertie

我正在尝试将pyspark提交到google dataproc集群,并希望在命令行中指定pyspark配置的属性。文档中说,我可以使用
--properties
标志指定这些属性。我尝试运行的命令如下所示:

gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster  —-properties=executor-memory=10G --properties=driver-memory=46G --properties=num-executors=20 -- -i X_small_train.txt -l y_small_train.txt -u X_small_test.txt -v y_small_test.txt
我认真尝试了我能想到的所有属性标志组合:

gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster  —-properties executor-memory=10G, driver-memory=46G,properties=num-executors=20 -- -i X_small_train.txt -l y_small_train.txt -u X_small_test.txt -v y_small_test.txt
等等,但我似乎无法让它发挥作用。一直给我这个错误:

ERROR: (gcloud.dataproc.jobs.submit.pyspark) unrecognized arguments: —-properties=executor-memory=10G
Usage: gcloud dataproc jobs submit pyspark PY_FILE --cluster=CLUSTER [optional flags] [-- JOB_ARGS ...]
  optional flags may be  --archives | --driver-log-levels | --files | --help |
                     --jars | --labels | --properties | --py-files | -h

有人知道怎么做吗?它说它需要一个键值对列表,但是列表的格式是什么

您应该在单个标志中指定属性,例如:

--properties=executor-memory=10G,driver-memory=46G,num-executors=20
您也可以使用“:”而不是“=”来减少与其他标志的歧义,例如:

 --properties=executor-memory:10G,driver-memory:46G,num-executors:20

列表的格式是一个字符串,以逗号分隔的k/v对,用引号括起来:

gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster \
  —-properties='spark.executor.memory=10G,spark.driver.memory=46G,\
  spark.num.executors=20' -- -i X_small_train.txt -l y_small_train.txt\
  -u X_small_test.txt -v y_small_test.txt

属性还需要是合法的pyspark属性配置语法,而不是
driver memory=46G
,而
spark.driver.memory=46G
是。正确的属性是:

gcloud dataproc作业提交pyspark PY_文件--cluster=cluster--properties=[PROPERTY-A=VALUE-A,PROPERTY-B=VALUE-B,…]