Pyspark 如何将bigquery表加载到dataproc集群

Pyspark 如何将bigquery表加载到dataproc集群,pyspark,jupyter-lab,google-cloud-dataproc,Pyspark,Jupyter Lab,Google Cloud Dataproc,我是dataproc cluster和PySpark的新手,因此,在寻找将表从bigquery加载到集群的代码的过程中,我遇到了下面的代码,无法弄清楚在这段代码中我应该为我的用例更改哪些内容,以及我们在输入目录中作为输入提供了哪些内容 from pyspark.context import SparkContext from pyspark.sql.session import SparkSession import subprocess sc = SparkContext() spark

我是dataproc cluster和PySpark的新手,因此,在寻找将表从bigquery加载到集群的代码的过程中,我遇到了下面的代码,无法弄清楚在这段代码中我应该为我的用例更改哪些内容,以及我们在输入目录中作为输入提供了哪些内容

from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
import subprocess


sc = SparkContext()
spark = SparkSession(sc)


bucket = spark._jsc.hadoopConfiguration().get('fs.gs.system.bucket')
project = spark._jsc.hadoopConfiguration().get('fs.gs.project.id')
input_directory = 'gs://{}/hadoop/tmp/bigquery/pyspark_input'.format(bucket)


conf = {
    'mapred.bq.project.id': project,
    'mapred.bq.gcs.bucket': bucket,
    'mapred.bq.temp.gcs.path': input_directory,
    'mapred.bq.input.project.id': 'dataset_new',
    'mapred.bq.input.dataset.id': 'retail',
    'mapred.bq.input.table.id': 'market',
}
你正在尝试使用,因为你应该使用火花

要从BigQuery读取数据,可以执行以下操作:

将云存储桶用于使用的临时BigQuery导出数据 通过连接器。 bucket=[bucket] spark.conf.set'temporaryGcsBucket',bucket 从BigQuery加载数据。 words=spark.read.format'bigquery'\ .option'table','bigquery公共数据:samples.shakespeare'\ 负载 words.createOrReplaceTempView'words' 执行字数统计。 word\u count=spark.sql '按单词从单词组中选择单词,并将单词计数作为单词计数' 字数 你正在尝试使用,因为你应该使用火花

要从BigQuery读取数据,可以执行以下操作:

将云存储桶用于使用的临时BigQuery导出数据 通过连接器。 bucket=[bucket] spark.conf.set'temporaryGcsBucket',bucket 从BigQuery加载数据。 words=spark.read.format'bigquery'\ .option'table','bigquery公共数据:samples.shakespeare'\ 负载 words.createOrReplaceTempView'words' 执行字数统计。 word\u count=spark.sql '按单词从单词组中选择单词,并将单词计数作为单词计数' 字数