Google bigquery 无法使用pyspark在本地spark(在我的mac上)中加载bigquery数据

Google bigquery 无法使用pyspark在本地spark(在我的mac上)中加载bigquery数据,google-bigquery,pyspark,Google Bigquery,Pyspark,在执行下面的代码后,我得到下面的错误。我在安装中遗漏了什么吗?我正在使用安装在本地mac上的spark,所以我正在检查是否需要为下面的代码安装额外的库来工作并从bigquery加载数据 Py4JJavaError回溯(最近一次调用) 在() 13“com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat”, 14“org.apache.hadoop.io.LongWritable”、“com.google.gson.JsonO

在执行下面的代码后,我得到下面的错误。我在安装中遗漏了什么吗?我正在使用安装在本地mac上的spark,所以我正在检查是否需要为下面的代码安装额外的库来工作并从bigquery加载数据

Py4JJavaError回溯(最近一次调用)
在()
13“com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat”,
14“org.apache.hadoop.io.LongWritable”、“com.google.gson.JsonObject”,
--->15 conf=conf).map(lambda k:json.loads(k[1])).map(lambda x:(x[“word”]),
Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.newAPIHadoopRDD时出错。
:java.lang.ClassNotFoundException:com.google.gson.JsonObject
导入json
进口Pypark
sc=pyspark.SparkContext()
hadoopConf=sc.\u jsc.hadoopConfiguration()
hadoopConf.get(“fs.gs.system.bucket”)
conf={“mapred.bq.project.id”:“”“mapred.bq.gcs.bucket”:“”,
“mapred.bq.input.project.id”:“publicdata”,
“mapred.bq.input.dataset.id”:“samples”,
“mapred.bq.input.table.id”:“莎士比亚”}
tableData=sc.newAPIHadoopRDD(
“com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat”,
“org.apache.hadoop.io.LongWritable”、“com.google.gson.JsonObject”,
map(lambda k:json.load(k[1])).map(lambda x:(x[“word”]),
int(x[“字数”]))。reduceByKey(λx,y:x+y)
打印表格数据。取(10)
错误“java.lang.ClassNotFoundException:com.google.gson.JsonObject”似乎暗示缺少库


请尝试将gson jar添加到您的路径中:

在Felipe的回复中突出显示隐藏在链接中的内容:bq连接器以前默认包含在Cloud Dataproc中,但从v1.3开始就被删除了。该链接向您展示了三种找回它的方法。

Felipe谢谢!我现在收到另一个错误-Py4JJavaError:发生了一个错误调用z:org.apache.spark.api.PythonRDD.newAPIHadoopRDD时出错:java.lang.ClassNotFoundException:com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat是否再次出现jar丢失问题?是的,您现在丢失了bigquery连接器:是的,谢谢我下载了它!得到另一个错误,如下所示。您知道我应该如何通过吗我的代码中的bigquery帐户凭据?我正在运行附加的代码(在我的主要问题中).Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.newAPIHadoopRDD时出错:java.io.IOException:从元数据服务器获取访问令牌时出错:身份验证?请查看位于的文档实际上我已经在本地安装了spark,并且我正在尝试将bigquery数据获取到spark中。但不清楚我应该如何传递我的代码中的bigquery凭据(访问密钥)?