Apache spark 序列文件的火花读取

Apache spark 序列文件的火花读取,apache-spark,Apache Spark,从各种线程、博客和一些知名书籍中,我可以看到SPARK可以读取“蜂巢”序列文件。但是MR生成的序列文件的另一个用例是许多小文件的容器,它能读取这种类型的文件吗?我想是的,但什么也没看到…事实上,回顾过去,这是一个非理性的问题。至于Hive表是否外部覆盖了这种类型的文件,或者文件是由MR.生成的,进行了大量阅读,但没有看到森林中的树木,这两个方面没有区别。这是可能发生的 为子孙后代: val RDD = sc.parallelize(List(("a", 1), ("

从各种线程、博客和一些知名书籍中,我可以看到SPARK可以读取“蜂巢”序列文件。但是MR生成的序列文件的另一个用例是许多小文件的容器,它能读取这种类型的文件吗?我想是的,但什么也没看到…

事实上,回顾过去,这是一个非理性的问题。至于Hive表是否外部覆盖了这种类型的文件,或者文件是由MR.生成的,进行了大量阅读,但没有看到森林中的树木,这两个方面没有区别。这是可能发生的

为子孙后代:

val RDD = sc.parallelize(List(("a", 1), ("b", 2), ("c", 3)))
RDD.saveAsSequenceFile("/XYZ/seq-dir")
痛苦的:

import org.apache.hadoop.io.Text
import org.apache.hadoop.io.IntWritable
val sequence_data = sc.sequenceFile("/XYZ/seq-dir/*", classOf[Text], classOf[IntWritable])
            .map{case (x, y) => (x.toString, y.get())}
            .collect