Apache spark 如何让PySpark在googleclouddataproc集群上工作
我有一系列问题(很抱歉,谷歌文档很糟糕,而且不友好):Apache spark 如何让PySpark在googleclouddataproc集群上工作,apache-spark,google-cloud-platform,google-cloud-storage,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Storage,Google Cloud Dataproc,我有一系列问题(很抱歉,谷歌文档很糟糕,而且不友好): 谷歌云上的亚马逊电子病历的等价物是什么?我正在使用此文档运行Spark作业: 你能用ssh连接到主机并在整个集群中运行Spark吗?或者你能使用Google的gcloud dataproc jobs submit…命令吗 当我在本地运行Spark作业并尝试访问Google云存储时,我这样做没有问题。当我尝试使用Dataproc时,它崩溃了 我读过: 到目前为止,我已经尝试过: 我已将gcs-connector-hadoop2-l
gcloud dataproc jobs submit…
命令吗- 我已将
和gcs-connector-hadoop2-latest.jar
放置在my_project.json
/etc/hadoop/conf
- 在我的主节点和工作节点上,我已将以下内容添加到
: 及/etc/hadoop/conf/core site.xml
- 我不断得到以下错误: 没有用于scheme:gs的文件系统
gcloud compute ssh${CLUSTER}-m
命令和,但是建议使用Dataproc API和/或gcloud
命令来连接Dataproc集群。注意,您可以使用gcloud
命令从任何具有gcloud
的机器向Dataproc群集提交作业,您不需要从Google云VM(例如Dataproc主节点)执行此操作gsutil cp spark.py gs:///path/spark.py
gcloud dataproc作业提交pyspark--cluster=${cluster}\
gs:///path/spark.py
@user1871528您可以分享您的spark.py
脚本吗?你如何进入那里的地面军事系统?
<property>
<name>google.cloud.auth.service.account.enable</name>
<value>true</value>
</property>
<property>
<name>my_project.json</name>
<value>full path to JSON keyfile downloaded for service account</value>
</property>
sudo gcloud dataproc jobs submit pyspark spark.py --cluster=${CLUSTER}
sudo gcloud dataproc jobs submit pyspark \
--jars /etc/hadoop/conf/gcs-connector-hadoop2-latest.jar \
spark.py --cluster=${CLUSTER}