Apache spark 如何在spark中将文本文件保存到orc

Apache spark 如何在spark中将文本文件保存到orc,apache-spark,pyspark,Apache Spark,Pyspark,我是spark的新手,我正在尝试使用spark shell将我的文本文件保存到orc,他们有什么办法吗 vall data =sc.textFile("/yyy/yyy/yyy") data.saveAsOrcFile("/yyy/yyy/yyy") 您可以将RDD转换为DataFrame,然后保存它 data.toDF().write.format("orc").save("/path/to/save/file") 要读回它,请使用sqlContext import org.apache.

我是spark的新手,我正在尝试使用spark shell将我的文本文件保存到orc,他们有什么办法吗

vall data =sc.textFile("/yyy/yyy/yyy")
data.saveAsOrcFile("/yyy/yyy/yyy")

您可以将RDD转换为DataFrame,然后保存它

data.toDF().write.format("orc").save("/path/to/save/file")
要读回它,请使用sqlContext

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

val data = sqlContext.read.format("orc").load("/path/to/file/*")