如何在Spark中读取Scala中的序列数据_Scala_Apache Spark_Sequence

如何在Spark中读取Scala中的序列数据

scala apache-spark

如何在Spark中读取Scala中的序列数据,scala,apache-spark,sequence,Scala,Apache Spark,Sequence,这是我第一次尝试在Scala中读取序列格式数据，如果有人能帮助我使用正确的命令，我将不胜感激数据：我的命令： sc.sequenceFile("orders03132_seq/part-m-00000", classOf[Int], classOf[String]).first 错误： 2013年3月18日16:59:28错误执行者：任务0.0在阶段1.0中出现异常（TID 1）java.lang.RuntimeException:java.io.IOException:Writable

这是我第一次尝试在Scala中读取序列格式数据，如果有人能帮助我使用正确的命令，我将不胜感激

数据：

我的命令：

sc.sequenceFile("orders03132_seq/part-m-00000", classOf[Int], classOf[String]).first

错误：

2013年3月18日16:59:28错误执行者：任务0.0在阶段1.0中出现异常（TID 1）java.lang.RuntimeException:java.io.IOException:WritableName 无法加载类：订单位于org.apache.hadoop.io.SequenceFile$Reader.getValueClass（SequenceFile.java:2103）

非常感谢。您需要将其作为Hadoop文件阅读。您可以通过以下方式完成此操作：

sc.hadoopFile[K, V, SequenceFileInputFormat[K,V]]("path/to/file")

请参阅文档。

能否正确格式化代码？无法理解

hdfs dfs-cat orders03132\u seq/part-m-00000 | head的输出是什么。很抱歉，您已经为我格式化了吗？我现在没有看到任何怪人，但谢谢提醒，我以后会记住的。它没有被编辑，至少对我来说，在SEQ之后有垃圾！org.apache.hadoop.io.LongWritableordeG谢谢。这些不是垃圾，事实上，它们是序列文件的内容。你能告诉我应该在那里放什么作为K和V吗？根据实际的序列数据内容，它似乎表示LongWritable，但如果是K，那么V呢？谢谢。这将是您首先存储SequenceFile的键和值格式。我猜代码片段中有K=Int，V=String。但我不确定。
sc.hadoopFile[K, V, SequenceFileInputFormat[K,V]]("path/to/file")