用PySpark读取拼花地板文件

用PySpark读取拼花地板文件,pyspark,parquet,Pyspark,Parquet,我是Pyspark的新手,似乎什么都没做。请救救我。 我想用Pyspark阅读拼花地板文件。我写了以下代码 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) sqlContext.read.parquet("my_file.parquet") 我犯了以下错误 Py4JJavaError回溯(最近的调用 last)/usr/local/spark/python/pyspark/sql/utils.py在装饰中(*a,

我是Pyspark的新手,似乎什么都没做。请救救我。 我想用Pyspark阅读拼花地板文件。我写了以下代码

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

sqlContext.read.parquet("my_file.parquet")
我犯了以下错误

Py4JJavaError回溯(最近的调用 last)/usr/local/spark/python/pyspark/sql/utils.py在装饰中(*a,**kw) 62尝试: --->63返回f(*a,**kw) 64除py4j.protocol.Py4JJavaError外的其他错误为e:

/中的usr/local/spark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py 获取\返回\值(应答、网关\客户端、目标\ id、名称) 318“调用{0}{1}{2}时出错。\n”。 -->319格式(目标id,“.”,名称),值) 320其他:

然后我尝试了以下代码

from pyspark.sql import SQLContext

sc = SparkContext.getOrCreate()

SQLContext.read.parquet("my_file.parquet")
然后错误如下:

AttributeError:“property”对象没有属性“parquet”


您需要首先创建SQLContext的实例

这将在pyspark shell中起作用:

从pyspark.sql导入SQLContext
sqlContext=sqlContext(sc)
sqlContext.read.parquet(“my_file.parquet”)
如果使用spark submit,则需要创建SparkContext,在这种情况下,您可以执行以下操作:

从pyspark导入SparkContext
从pyspark.sql导入SQLContext
sc=SparkContext()
sqlContext=sqlContext(sc)
sqlContext.read.parquet(“my_file.parquet”)

试试这个。

试试这个:
SQLContext.read.format(“parquet”).load(“my_file.parquet”)
。同样的错误?@Steven。。。我试过了,但还是犯了同样的错误。我想错误是在创建sql上下文时。@deega你能把这个拼花地板文件上传到什么地方吗?
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
sc.stop()
conf = (conf.setMaster('local[*]'))
sc = SparkContext(conf = conf)
sqlContext = SQLContext(sc)

df = sqlContext.read.parquet("my_file.parquet")