Google bigquery 无法使用pyspark在本地spark（在我的mac上）中加载bigquery数据_Google Bigquery_Pyspark

Google bigquery 无法使用pyspark在本地spark（在我的mac上）中加载bigquery数据

google-bigquery pyspark

Google bigquery 无法使用pyspark在本地spark（在我的mac上）中加载bigquery数据,google-bigquery,pyspark,Google Bigquery,Pyspark,在执行下面的代码后，我得到下面的错误。我在安装中遗漏了什么吗？我正在使用安装在本地mac上的spark，所以我正在检查是否需要为下面的代码安装额外的库来工作并从bigquery加载数据 Py4JJavaError回溯（最近一次调用）在（） 13“com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat”， 14“org.apache.hadoop.io.LongWritable”、“com.google.gson.JsonO

在执行下面的代码后，我得到下面的错误。我在安装中遗漏了什么吗？我正在使用安装在本地mac上的spark，所以我正在检查是否需要为下面的代码安装额外的库来工作并从bigquery加载数据

Py4JJavaError回溯（最近一次调用）
在（）
13“com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat”，
14“org.apache.hadoop.io.LongWritable”、“com.google.gson.JsonObject”，
--->15 conf=conf）.map（lambda k:json.loads（k[1]））.map（lambda x:（x[“word”]），
Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.newAPIHadoopRDD时出错。
：java.lang.ClassNotFoundException:com.google.gson.JsonObject

导入json
进口Pypark
sc=pyspark.SparkContext（）
hadoopConf=sc.\u jsc.hadoopConfiguration（）
hadoopConf.get（“fs.gs.system.bucket”）
conf={“mapred.bq.project.id”：“”“mapred.bq.gcs.bucket”：“”，
“mapred.bq.input.project.id”：“publicdata”，
“mapred.bq.input.dataset.id”：“samples”，
“mapred.bq.input.table.id”：“莎士比亚”}
tableData=sc.newAPIHadoopRDD(
“com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat”，
“org.apache.hadoop.io.LongWritable”、“com.google.gson.JsonObject”，
map（lambda k:json.load（k[1]））.map（lambda x:（x[“word”]），
int（x[“字数”]））。reduceByKey（λx，y:x+y）
打印表格数据。取（10）

错误“java.lang.ClassNotFoundException:com.google.gson.JsonObject”似乎暗示缺少库

请尝试将gson jar添加到您的路径中：

在Felipe的回复中突出显示隐藏在链接中的内容：bq连接器以前默认包含在Cloud Dataproc中，但从v1.3开始就被删除了。该链接向您展示了三种找回它的方法。

Felipe谢谢！我现在收到另一个错误-Py4JJavaError:发生了一个错误调用z:org.apache.spark.api.PythonRDD.newAPIHadoopRDD时出错：java.lang.ClassNotFoundException:com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat是否再次出现jar丢失问题？是的，您现在丢失了bigquery连接器：是的，谢谢我下载了它！得到另一个错误，如下所示。您知道我应该如何通过吗我的代码中的bigquery帐户凭据？我正在运行附加的代码（在我的主要问题中）.Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.newAPIHadoopRDD时出错：java.io.IOException:从元数据服务器获取访问令牌时出错：身份验证？请查看位于的文档实际上我已经在本地安装了spark，并且我正在尝试将bigquery数据获取到spark中。但不清楚我应该如何传递我的代码中的bigquery凭据（访问密钥）？