Pyspark 如何将bigquery表加载到dataproc集群_Pyspark_Jupyter Lab_Google Cloud Dataproc

Pyspark 如何将bigquery表加载到dataproc集群

pyspark

Pyspark 如何将bigquery表加载到dataproc集群,pyspark,jupyter-lab,google-cloud-dataproc,Pyspark,Jupyter Lab,Google Cloud Dataproc,我是dataproc cluster和PySpark的新手，因此，在寻找将表从bigquery加载到集群的代码的过程中，我遇到了下面的代码，无法弄清楚在这段代码中我应该为我的用例更改哪些内容，以及我们在输入目录中作为输入提供了哪些内容 from pyspark.context import SparkContext from pyspark.sql.session import SparkSession import subprocess sc = SparkContext() spark

我是dataproc cluster和PySpark的新手，因此，在寻找将表从bigquery加载到集群的代码的过程中，我遇到了下面的代码，无法弄清楚在这段代码中我应该为我的用例更改哪些内容，以及我们在输入目录中作为输入提供了哪些内容

from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
import subprocess


sc = SparkContext()
spark = SparkSession(sc)


bucket = spark._jsc.hadoopConfiguration().get('fs.gs.system.bucket')
project = spark._jsc.hadoopConfiguration().get('fs.gs.project.id')
input_directory = 'gs://{}/hadoop/tmp/bigquery/pyspark_input'.format(bucket)


conf = {
    'mapred.bq.project.id': project,
    'mapred.bq.gcs.bucket': bucket,
    'mapred.bq.temp.gcs.path': input_directory,
    'mapred.bq.input.project.id': 'dataset_new',
    'mapred.bq.input.dataset.id': 'retail',
    'mapred.bq.input.table.id': 'market',
}

你正在尝试使用，因为你应该使用火花

要从BigQuery读取数据，可以执行以下操作：

将云存储桶用于使用的临时BigQuery导出数据通过连接器。 bucket=[bucket] spark.conf.set'temporaryGcsBucket'，bucket 从BigQuery加载数据。 words=spark.read.format'bigquery'\ .option'table'，'bigquery公共数据：samples.shakespeare'\ 负载 words.createOrReplaceTempView'words' 执行字数统计。 word\u count=spark.sql '按单词从单词组中选择单词，并将单词计数作为单词计数' 字数你正在尝试使用，因为你应该使用火花

要从BigQuery读取数据，可以执行以下操作：