Scala 直接从Spark shell读取ORC文件
我在直接从Spark shell读取ORC文件时遇到问题。注意:使用PySparkShell运行Hadoop1.2和Spark1.2可以使用SparkShell(运行scala) 我使用了这个资源 我通常会说错误的语法。有一次,代码似乎正常工作,我只使用了传递给hadoopFile的三个参数中的第一个,但是当我尝试使用Scala 直接从Spark shell读取ORC文件,scala,hadoop,apache-spark,hive,pyspark,Scala,Hadoop,Apache Spark,Hive,Pyspark,我在直接从Spark shell读取ORC文件时遇到问题。注意:使用PySparkShell运行Hadoop1.2和Spark1.2可以使用SparkShell(运行scala) 我使用了这个资源 我通常会说错误的语法。有一次,代码似乎正常工作,我只使用了传递给hadoopFile的三个参数中的第一个,但是当我尝试使用 inputRead.first() 输出为RDD[无,无]。我不知道这是因为inputRead变量没有被创建为RDD,还是根本没有被创建 谢谢你的帮助 在Spark 1.5中,
inputRead.first()
输出为RDD[无,无]。我不知道这是因为inputRead变量没有被创建为RDD,还是根本没有被创建
谢谢你的帮助 在Spark 1.5中,我可以将我的ORC文件加载为:
val orcfile = "hdfs:///ORC_FILE_PATH"
val df = sqlContext.read.format("orc").load(orcfile)
df.show
您还可以添加要从中读取的多个路径
val df = sqlContext.read.format("orc").load("hdfs://localhost:8020/user/aks/input1/*","hdfs://localhost:8020/aks/input2/*/part-r-*.orc")
你可以试试这个代码,它对我有用
val LoadOrc = spark.read.option("inferSchema", true).orc("filepath")
LoadOrc.show()
您好,我是python新手,但在scala中,读取ORC文件的符号如下:sc.hadoopFile(ORC_文件_路径,classOf[org.apache.hadoop.hive.ql.io.ORC.OrcInputFormat],classOf[org.apache.hadoop.io.nullwriteable],classOf[org.apache.hadoop.hive.ql.io.ORC.OrcStruct]);尝试在Spark 1.4新支持的pythonORC文件中添加4个类似的参数。因此,您可以使用spark的最新版本!我通过HiveContext将一个存储为ORC的配置单元表读入并使用dataFrame进行查询@kaushal我认为这有一个jira,不一定集成在Spark 1.4中(不完全确定)如何添加多条路径以从中加载
val LoadOrc = spark.read.option("inferSchema", true).orc("filepath")
LoadOrc.show()