Apache spark 序列文件的火花读取_Apache Spark

Apache spark 序列文件的火花读取

apache-spark

Apache spark 序列文件的火花读取,apache-spark,Apache Spark,从各种线程、博客和一些知名书籍中，我可以看到SPARK可以读取“蜂巢”序列文件。但是MR生成的序列文件的另一个用例是许多小文件的容器，它能读取这种类型的文件吗？我想是的，但什么也没看到…事实上，回顾过去，这是一个非理性的问题。至于Hive表是否外部覆盖了这种类型的文件，或者文件是由MR.生成的，进行了大量阅读，但没有看到森林中的树木，这两个方面没有区别。这是可能发生的为子孙后代： val RDD = sc.parallelize(List(("a", 1), ("

从各种线程、博客和一些知名书籍中，我可以看到SPARK可以读取“蜂巢”序列文件。但是MR生成的序列文件的另一个用例是许多小文件的容器，它能读取这种类型的文件吗？我想是的，但什么也没看到…

事实上，回顾过去，这是一个非理性的问题。至于Hive表是否外部覆盖了这种类型的文件，或者文件是由MR.生成的，进行了大量阅读，但没有看到森林中的树木，这两个方面没有区别。这是可能发生的

为子孙后代：

val RDD = sc.parallelize(List(("a", 1), ("b", 2), ("c", 3)))
RDD.saveAsSequenceFile("/XYZ/seq-dir")

痛苦的：

import org.apache.hadoop.io.Text
import org.apache.hadoop.io.IntWritable
val sequence_data = sc.sequenceFile("/XYZ/seq-dir/*", classOf[Text], classOf[IntWritable])
            .map{case (x, y) => (x.toString, y.get())}
            .collect