Scala 直接从Spark shell读取ORC文件_Scala_Hadoop_Apache Spark_Hive_Pyspark

Scala 直接从Spark shell读取ORC文件

scala hadoop apache-spark hive pyspark

Scala 直接从Spark shell读取ORC文件,scala,hadoop,apache-spark,hive,pyspark,Scala,Hadoop,Apache Spark,Hive,Pyspark,我在直接从Spark shell读取ORC文件时遇到问题。注意：使用PySparkShell运行Hadoop1.2和Spark1.2可以使用SparkShell（运行scala）我使用了这个资源我通常会说错误的语法。有一次，代码似乎正常工作，我只使用了传递给hadoopFile的三个参数中的第一个，但是当我尝试使用 inputRead.first() 输出为RDD[无，无]。我不知道这是因为inputRead变量没有被创建为RDD，还是根本没有被创建谢谢你的帮助在Spark 1.5中，

我在直接从Spark shell读取ORC文件时遇到问题。注意：使用PySparkShell运行Hadoop1.2和Spark1.2可以使用SparkShell（运行scala）

我使用了这个资源

我通常会说错误的语法。有一次，代码似乎正常工作，我只使用了传递给hadoopFile的三个参数中的第一个，但是当我尝试使用

inputRead.first()

输出为RDD[无，无]。我不知道这是因为inputRead变量没有被创建为RDD，还是根本没有被创建

谢谢你的帮助

在Spark 1.5中，我可以将我的ORC文件加载为：

val orcfile = "hdfs:///ORC_FILE_PATH"
val df = sqlContext.read.format("orc").load(orcfile)
df.show

您还可以添加要从中读取的多个路径

val df = sqlContext.read.format("orc").load("hdfs://localhost:8020/user/aks/input1/*","hdfs://localhost:8020/aks/input2/*/part-r-*.orc")

你可以试试这个代码，它对我有用

val LoadOrc = spark.read.option("inferSchema", true).orc("filepath")
LoadOrc.show()

您好，我是python新手，但在scala中，读取ORC文件的符号如下：sc.hadoopFile（ORC_文件_路径，classOf[org.apache.hadoop.hive.ql.io.ORC.OrcInputFormat]，classOf[org.apache.hadoop.io.nullwriteable]，classOf[org.apache.hadoop.hive.ql.io.ORC.OrcStruct]）；尝试在Spark 1.4新支持的pythonORC文件中添加4个类似的参数。因此，您可以使用spark的最新版本！我通过HiveContext将一个存储为ORC的配置单元表读入并使用dataFrame进行查询@kaushal我认为这有一个jira，不一定集成在Spark 1.4中（不完全确定）如何添加多条路径以从中加载

val LoadOrc = spark.read.option("inferSchema", true).orc("filepath")
LoadOrc.show()