Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何让PySpark在googleclouddataproc集群上工作_Apache Spark_Google Cloud Platform_Google Cloud Storage_Google Cloud Dataproc - Fatal编程技术网

Apache spark 如何让PySpark在googleclouddataproc集群上工作

Apache spark 如何让PySpark在googleclouddataproc集群上工作,apache-spark,google-cloud-platform,google-cloud-storage,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Storage,Google Cloud Dataproc,我有一系列问题(很抱歉,谷歌文档很糟糕,而且不友好): 谷歌云上的亚马逊电子病历的等价物是什么?我正在使用此文档运行Spark作业: 你能用ssh连接到主机并在整个集群中运行Spark吗?或者你能使用Google的gcloud dataproc jobs submit…命令吗 当我在本地运行Spark作业并尝试访问Google云存储时,我这样做没有问题。当我尝试使用Dataproc时,它崩溃了 我读过: 到目前为止,我已经尝试过: 我已将gcs-connector-hadoop2-l

我有一系列问题(很抱歉,谷歌文档很糟糕,而且不友好):

  • 谷歌云上的亚马逊电子病历的等价物是什么?我正在使用此文档运行Spark作业:
  • 你能用ssh连接到主机并在整个集群中运行Spark吗?或者你能使用Google的
    gcloud dataproc jobs submit…
    命令吗
  • 当我在本地运行Spark作业并尝试访问Google云存储时,我这样做没有问题。当我尝试使用Dataproc时,它崩溃了
  • 我读过:

    到目前为止,我已经尝试过:

    • 我已将
      gcs-connector-hadoop2-latest.jar
      my_project.json
      放置在
      /etc/hadoop/conf
    • 在我的主节点和工作节点上,我已将以下内容添加到
      /etc/hadoop/conf/core site.xml

    • 我不断得到以下错误: 没有用于scheme:gs的文件系统

    我不知道下一步该怎么办

  • 是的,Google Dataproc相当于AWS EMR

  • 是的,您可以使用
    gcloud compute ssh${CLUSTER}-m
    命令和,但是建议使用Dataproc API和/或
    gcloud
    命令来连接Dataproc集群。注意,您可以使用
    gcloud
    命令从任何具有
    gcloud
    的机器向Dataproc群集提交作业,您不需要从Google云VM(例如Dataproc主节点)执行此操作

  • 要从提交给Dataproc集群的作业中访问Google云存储(GCS),您不需要执行任何配置(Dataproc已经配置并已经配置为访问GCS)

  • 您可以使用命令在Dataproc集群上提交PySpark作业(注意,首先您需要将PySpark作业文件复制到GCS,并在提交Dataproc作业时使用该文件):

    gsutil cp spark.py gs:///path/spark.py
    gcloud dataproc作业提交pyspark--cluster=${cluster}\
    gs:///path/spark.py
    
    @user1871528您可以分享您的
    spark.py
    脚本吗?你如何进入那里的地面军事系统?
    <property>
      <name>google.cloud.auth.service.account.enable</name>
      <value>true</value>
    </property>
    <property>
      <name>my_project.json</name>
      <value>full path to JSON keyfile downloaded for service account</value>
    </property>
    
    sudo gcloud dataproc jobs submit pyspark  spark.py --cluster=${CLUSTER}
    
    sudo gcloud dataproc jobs submit pyspark \
        --jars  /etc/hadoop/conf/gcs-connector-hadoop2-latest.jar \
        spark.py --cluster=${CLUSTER}