Pyspark 如何将bigquery表加载到dataproc集群
我是dataproc cluster和PySpark的新手,因此,在寻找将表从bigquery加载到集群的代码的过程中,我遇到了下面的代码,无法弄清楚在这段代码中我应该为我的用例更改哪些内容,以及我们在输入目录中作为输入提供了哪些内容Pyspark 如何将bigquery表加载到dataproc集群,pyspark,jupyter-lab,google-cloud-dataproc,Pyspark,Jupyter Lab,Google Cloud Dataproc,我是dataproc cluster和PySpark的新手,因此,在寻找将表从bigquery加载到集群的代码的过程中,我遇到了下面的代码,无法弄清楚在这段代码中我应该为我的用例更改哪些内容,以及我们在输入目录中作为输入提供了哪些内容 from pyspark.context import SparkContext from pyspark.sql.session import SparkSession import subprocess sc = SparkContext() spark
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
import subprocess
sc = SparkContext()
spark = SparkSession(sc)
bucket = spark._jsc.hadoopConfiguration().get('fs.gs.system.bucket')
project = spark._jsc.hadoopConfiguration().get('fs.gs.project.id')
input_directory = 'gs://{}/hadoop/tmp/bigquery/pyspark_input'.format(bucket)
conf = {
'mapred.bq.project.id': project,
'mapred.bq.gcs.bucket': bucket,
'mapred.bq.temp.gcs.path': input_directory,
'mapred.bq.input.project.id': 'dataset_new',
'mapred.bq.input.dataset.id': 'retail',
'mapred.bq.input.table.id': 'market',
}
你正在尝试使用,因为你应该使用火花
要从BigQuery读取数据,可以执行以下操作:
将云存储桶用于使用的临时BigQuery导出数据
通过连接器。
bucket=[bucket]
spark.conf.set'temporaryGcsBucket',bucket
从BigQuery加载数据。
words=spark.read.format'bigquery'\
.option'table','bigquery公共数据:samples.shakespeare'\
负载
words.createOrReplaceTempView'words'
执行字数统计。
word\u count=spark.sql
'按单词从单词组中选择单词,并将单词计数作为单词计数'
字数
你正在尝试使用,因为你应该使用火花
要从BigQuery读取数据,可以执行以下操作:
将云存储桶用于使用的临时BigQuery导出数据
通过连接器。
bucket=[bucket]
spark.conf.set'temporaryGcsBucket',bucket
从BigQuery加载数据。
words=spark.read.format'bigquery'\
.option'table','bigquery公共数据:samples.shakespeare'\
负载
words.createOrReplaceTempView'words'
执行字数统计。
word\u count=spark.sql
'按单词从单词组中选择单词,并将单词计数作为单词计数'
字数