如何使用Dataproc Pyspark在BigQuery中创建外部表

如何使用Dataproc Pyspark在BigQuery中创建外部表,pyspark,google-bigquery,cloud,google-cloud-dataproc,Pyspark,Google Bigquery,Cloud,Google Cloud Dataproc,我的用例包括使用Pyspark代码在Bigquery中创建一个外部表。 数据源是存放JSON数据的Google云存储桶。 我正在将JSON数据读入一个数据帧,并希望创建一个外部Bigquery表。到目前为止,正在创建该表,但它不是一个外部表 df_view.write\ .format("com.google.cloud.spark.bigquery")\ .option('table', 'xyz-abc-abc:xyz_zone.test_table_yyyy')\

我的用例包括使用Pyspark代码在Bigquery中创建一个外部表。 数据源是存放JSON数据的Google云存储桶。 我正在将JSON数据读入一个数据帧,并希望创建一个外部Bigquery表。到目前为止,正在创建该表,但它不是一个外部表

df_view.write\
    .format("com.google.cloud.spark.bigquery")\
    .option('table', 'xyz-abc-abc:xyz_zone.test_table_yyyy')\
    .option("temporaryGcsBucket","abcd-xml-abc-warehouse")\
    .save(mode='append',path='gs://xxxxxxxxx/')
我正在使用spark bigquery连接器来实现我的目标


如果有人遇到同样的问题,请告诉我。

目前spark bigquery连接器不支持写入外部表。请,我们将尽快添加它

当然,您可以分两步进行:

  • 将JSON文件写入GCS
  • 使用BigQuery API创建外部表

谢谢你,大卫。我将向谷歌云支持团队提出异议。