Dataframe 将文本文件读取到Pyspark数据帧时出错
我正在pyspark(1.6.0)中运行基本的pyspark程序,如下所示,但我发现了错误。根据PySpark文档,语法似乎是正确的,但仍然不确定为什么它说“SQLContext”对象没有属性“textFile”Dataframe 将文本文件读取到Pyspark数据帧时出错,dataframe,apache-spark,pyspark,Dataframe,Apache Spark,Pyspark,我正在pyspark(1.6.0)中运行基本的pyspark程序,如下所示,但我发现了错误。根据PySpark文档,语法似乎是正确的,但仍然不确定为什么它说“SQLContext”对象没有属性“textFile” from pyspark import SparkContext,SparkConf from pyspark.sql import SQLContext if __name__ == '__main__': conf = SparkConf().se
from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext
if __name__ == '__main__':
conf = SparkConf().setAppName('TestingDF')
sc = SparkContext(conf=conf)
sqlc = SQLContext(sc)
lines = sqlc.textFile('/user/cloudera/practice4/question3/customers').map(lambda x: x.split(','))
我正在犯错误
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'SQLContext' object has no attribute 'textFile'
回溯(最近一次呼叫最后一次):
文件“”,第1行,在
AttributeError:'SQLContext'对象没有属性'textFile'
“/user/cloudera/practice4/question3/customers”基本上是我通过sqoop命令从mysql导入HDFS的sql表
Python版本是2.6.6(基本上我是在cloudera Quickstart VM 5.13上测试这一切)您应该使用
sc.textFile(path)
而不是如果它是一个配置单元表,您应该实际使用sqlc.table(“table_name”)