Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在Spark中读取Scala中的序列数据_Scala_Apache Spark_Sequence - Fatal编程技术网

如何在Spark中读取Scala中的序列数据

如何在Spark中读取Scala中的序列数据,scala,apache-spark,sequence,Scala,Apache Spark,Sequence,这是我第一次尝试在Scala中读取序列格式数据,如果有人能帮助我使用正确的命令,我将不胜感激 数据: 我的命令: sc.sequenceFile("orders03132_seq/part-m-00000", classOf[Int], classOf[String]).first 错误: 2013年3月18日16:59:28错误执行者:任务0.0在阶段1.0中出现异常 (TID 1)java.lang.RuntimeException:java.io.IOException:Writable

这是我第一次尝试在Scala中读取序列格式数据,如果有人能帮助我使用正确的命令,我将不胜感激

数据:

我的命令:

sc.sequenceFile("orders03132_seq/part-m-00000", classOf[Int], classOf[String]).first
错误:

2013年3月18日16:59:28错误执行者:任务0.0在阶段1.0中出现异常 (TID 1)java.lang.RuntimeException:java.io.IOException:WritableName 无法加载类:订单 位于org.apache.hadoop.io.SequenceFile$Reader.getValueClass(SequenceFile.java:2103)


非常感谢。您需要将其作为Hadoop文件阅读。您可以通过以下方式完成此操作:

sc.hadoopFile[K, V, SequenceFileInputFormat[K,V]]("path/to/file")

请参阅文档。

能否正确格式化代码?无法理解
hdfs dfs-cat orders03132\u seq/part-m-00000 | head的输出是什么。很抱歉,您已经为我格式化了吗?我现在没有看到任何怪人,但谢谢提醒,我以后会记住的。它没有被编辑,至少对我来说,在
SEQ之后有垃圾!org.apache.hadoop.io.LongWritableordeG
谢谢。这些不是垃圾,事实上,它们是序列文件的内容。你能告诉我应该在那里放什么作为K和V吗?根据实际的序列数据内容,它似乎表示LongWritable,但如果是K,那么V呢?谢谢。这将是您首先存储SequenceFile的键和值格式。我猜代码片段中有K=Int,V=String。但我不确定。
sc.hadoopFile[K, V, SequenceFileInputFormat[K,V]]("path/to/file")