Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 直接从Spark shell读取ORC文件_Scala_Hadoop_Apache Spark_Hive_Pyspark - Fatal编程技术网

Scala 直接从Spark shell读取ORC文件

Scala 直接从Spark shell读取ORC文件,scala,hadoop,apache-spark,hive,pyspark,Scala,Hadoop,Apache Spark,Hive,Pyspark,我在直接从Spark shell读取ORC文件时遇到问题。注意:使用PySparkShell运行Hadoop1.2和Spark1.2可以使用SparkShell(运行scala) 我使用了这个资源 我通常会说错误的语法。有一次,代码似乎正常工作,我只使用了传递给hadoopFile的三个参数中的第一个,但是当我尝试使用 inputRead.first() 输出为RDD[无,无]。我不知道这是因为inputRead变量没有被创建为RDD,还是根本没有被创建 谢谢你的帮助 在Spark 1.5中,

我在直接从Spark shell读取ORC文件时遇到问题。注意:使用PySparkShell运行Hadoop1.2和Spark1.2可以使用SparkShell(运行scala)

我使用了这个资源

我通常会说错误的语法。有一次,代码似乎正常工作,我只使用了传递给hadoopFile的三个参数中的第一个,但是当我尝试使用

inputRead.first()
输出为RDD[无,无]。我不知道这是因为inputRead变量没有被创建为RDD,还是根本没有被创建


谢谢你的帮助

在Spark 1.5中,我可以将我的ORC文件加载为:

val orcfile = "hdfs:///ORC_FILE_PATH"
val df = sqlContext.read.format("orc").load(orcfile)
df.show

您还可以添加要从中读取的多个路径

val df = sqlContext.read.format("orc").load("hdfs://localhost:8020/user/aks/input1/*","hdfs://localhost:8020/aks/input2/*/part-r-*.orc")

你可以试试这个代码,它对我有用

val LoadOrc = spark.read.option("inferSchema", true).orc("filepath")
LoadOrc.show()

您好,我是python新手,但在scala中,读取ORC文件的符号如下:sc.hadoopFile(ORC_文件_路径,classOf[org.apache.hadoop.hive.ql.io.ORC.OrcInputFormat],classOf[org.apache.hadoop.io.nullwriteable],classOf[org.apache.hadoop.hive.ql.io.ORC.OrcStruct]);尝试在Spark 1.4新支持的pythonORC文件中添加4个类似的参数。因此,您可以使用spark的最新版本!我通过HiveContext将一个存储为ORC的配置单元表读入并使用dataFrame进行查询@kaushal我认为这有一个jira,不一定集成在Spark 1.4中(不完全确定)如何添加多条路径以从中加载
val LoadOrc = spark.read.option("inferSchema", true).orc("filepath")
LoadOrc.show()