Scala Spark:IOException,记录期间流关闭
我试图使用Spark计算维基百科XML转储中锚文本的频率 输入/输出:Scala Spark:IOException,记录期间流关闭,scala,apache-spark,ioexception,Scala,Apache Spark,Ioexception,我试图使用Spark计算维基百科XML转储中锚文本的频率 输入/输出: 输入:锚文本列表 输出:对(锚文本、频率)的列表 目前的解决办法是: anchor_texts.map( key => (key, 1) ).reduceByKey { case (acc, i) => acc + i } 这些工作都没有成功。检查工作日志后,我发现以下错误: 15/12/17 17:28:33 ERROR FileAppender: Error writing stream
- 输入:锚文本列表
- 输出:对(锚文本、频率)的列表
anchor_texts.map(
key => (key, 1)
).reduceByKey {
case (acc, i) => acc + i
}
这些工作都没有成功。检查工作日志后,我发现以下错误:
15/12/17 17:28:33 ERROR FileAppender: Error writing stream to file /cs/work/home/hxiao/spark-related/spark-1.5.2-bin-hadoop2.4/work/app-20151217163507-0000/28/stderr
java.io.IOException: Stream closed
at java.io.BufferedInputStream.getBufIfOpen(BufferedInputStream.java:162)
at java.io.BufferedInputStream.read1(BufferedInputStream.java:272)
at java.io.BufferedInputStream.read(BufferedInputStream.java:334)
at java.io.FilterInputStream.read(FilterInputStream.java:107)
at org.apache.spark.util.logging.FileAppender.appendStreamToFile(FileAppender.scala:70)
at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply$mcV$sp(FileAppender.scala:39)
at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
at org.apache.spark.util.logging.FileAppender$$anon$1.run(FileAppender.scala:38)
我觉得奇怪的是:
在此阶段之前,我还使用Spark收集从页面标题到页面id的映射。一切正常。然而,在这个阶段,它崩溃了
一些版本信息:
- 火花:1.5.2
- 斯卡拉:2.10.5
- 模式:群集模式
SPARK_EXECUTOR_MEMORY=8G
SPARK_DRIVER_MEMORY=8G
SPARK_EXECUTOR_CORES=8
我也觉得奇怪的是
如果我在一个较小的数据集上运行这个程序,事情会很顺利。但是,如果对整个维基百科来说,那么上面的错误是什么。输入路径是什么?spark不会在其他操作之前将文件读入rdd,请尝试使用spark shell并运行如下代码 val rdd=sc.textFile(“路径”) val样本=rdd.take(1) 查看路径是否可访问