用PySpark读取拼花地板文件
我是Pyspark的新手,似乎什么都没做。请救救我。 我想用Pyspark阅读拼花地板文件。我写了以下代码用PySpark读取拼花地板文件,pyspark,parquet,Pyspark,Parquet,我是Pyspark的新手,似乎什么都没做。请救救我。 我想用Pyspark阅读拼花地板文件。我写了以下代码 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) sqlContext.read.parquet("my_file.parquet") 我犯了以下错误 Py4JJavaError回溯(最近的调用 last)/usr/local/spark/python/pyspark/sql/utils.py在装饰中(*a,
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
sqlContext.read.parquet("my_file.parquet")
我犯了以下错误
Py4JJavaError回溯(最近的调用
last)/usr/local/spark/python/pyspark/sql/utils.py在装饰中(*a,**kw)
62尝试:
--->63返回f(*a,**kw)
64除py4j.protocol.Py4JJavaError外的其他错误为e:
/中的usr/local/spark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py
获取\返回\值(应答、网关\客户端、目标\ id、名称)
318“调用{0}{1}{2}时出错。\n”。
-->319格式(目标id,“.”,名称),值)
320其他:
然后我尝试了以下代码
from pyspark.sql import SQLContext
sc = SparkContext.getOrCreate()
SQLContext.read.parquet("my_file.parquet")
然后错误如下:
AttributeError:“property”对象没有属性“parquet”
您需要首先创建SQLContext的实例 这将在pyspark shell中起作用:
从pyspark.sql导入SQLContext
sqlContext=sqlContext(sc)
sqlContext.read.parquet(“my_file.parquet”)
如果使用spark submit,则需要创建SparkContext,在这种情况下,您可以执行以下操作:
从pyspark导入SparkContext
从pyspark.sql导入SQLContext
sc=SparkContext()
sqlContext=sqlContext(sc)
sqlContext.read.parquet(“my_file.parquet”)
试试这个。试试这个:
SQLContext.read.format(“parquet”).load(“my_file.parquet”)
。同样的错误?@Steven。。。我试过了,但还是犯了同样的错误。我想错误是在创建sql上下文时。@deega你能把这个拼花地板文件上传到什么地方吗?
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
sc.stop()
conf = (conf.setMaster('local[*]'))
sc = SparkContext(conf = conf)
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet("my_file.parquet")