Apache spark 如何让PySpark在googleclouddataproc集群上工作_Apache Spark_Google Cloud Platform_Google Cloud Storage_Google Cloud Dataproc

Apache spark 如何让PySpark在googleclouddataproc集群上工作

apache-spark google-cloud-platform google-cloud-storage

Apache spark 如何让PySpark在googleclouddataproc集群上工作,apache-spark,google-cloud-platform,google-cloud-storage,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Storage,Google Cloud Dataproc,我有一系列问题（很抱歉，谷歌文档很糟糕，而且不友好）：谷歌云上的亚马逊电子病历的等价物是什么？我正在使用此文档运行Spark作业：你能用ssh连接到主机并在整个集群中运行Spark吗？或者你能使用Google的gcloud dataproc jobs submit…命令吗当我在本地运行Spark作业并尝试访问Google云存储时，我这样做没有问题。当我尝试使用Dataproc时，它崩溃了我读过：到目前为止，我已经尝试过：我已将gcs-connector-hadoop2-l

我有一系列问题（很抱歉，谷歌文档很糟糕，而且不友好）：

谷歌云上的亚马逊电子病历的等价物是什么？我正在使用此文档运行Spark作业：

你能用ssh连接到主机并在整个集群中运行Spark吗？或者你能使用Google的

gcloud dataproc jobs submit…

命令吗

当我在本地运行Spark作业并尝试访问Google云存储时，我这样做没有问题。当我尝试使用Dataproc时，它崩溃了

我读过：

到目前为止，我已经尝试过：

我已将

gcs-connector-hadoop2-latest.jar

和

my_project.json

放置在

/etc/hadoop/conf

在我的主节点和工作节点上，我已将以下内容添加到
```
/etc/hadoop/conf/core site.xml
```
：
及
我不断得到以下错误：没有用于scheme:gs的文件系统

我不知道下一步该怎么办

是的，Google Dataproc相当于AWS EMR

是的，您可以使用

gcloud compute ssh${CLUSTER}-m

命令和，但是建议使用Dataproc API和/或

gcloud

命令来连接Dataproc集群。注意，您可以使用

gcloud

命令从任何具有

gcloud

的机器向Dataproc群集提交作业，您不需要从Google云VM（例如Dataproc主节点）执行此操作

要从提交给Dataproc集群的作业中访问Google云存储（GCS），您不需要执行任何配置（Dataproc已经配置并已经配置为访问GCS）

您可以使用命令在Dataproc集群上提交PySpark作业（注意，首先您需要将PySpark作业文件复制到GCS，并在提交Dataproc作业时使用该文件）：

gsutil cp spark.py gs:///path/spark.py
gcloud dataproc作业提交pyspark--cluster=${cluster}\
gs:///path/spark.py

@user1871528您可以分享您的

spark.py

脚本吗？你如何进入那里的地面军事系统？

<property>
  <name>google.cloud.auth.service.account.enable</name>
  <value>true</value>
</property>
<property>
  <name>my_project.json</name>
  <value>full path to JSON keyfile downloaded for service account</value>
</property>

sudo gcloud dataproc jobs submit pyspark  spark.py --cluster=${CLUSTER}

sudo gcloud dataproc jobs submit pyspark \
    --jars  /etc/hadoop/conf/gcs-connector-hadoop2-latest.jar \
    spark.py --cluster=${CLUSTER}