Scala Spark:IOException，记录期间流关闭_Scala_Apache Spark_Ioexception

Scala Spark:IOException，记录期间流关闭

scala apache-spark

Scala Spark:IOException，记录期间流关闭,scala,apache-spark,ioexception,Scala,Apache Spark,Ioexception,我试图使用Spark计算维基百科XML转储中锚文本的频率输入/输出：输入：锚文本列表输出：对（锚文本、频率）的列表目前的解决办法是： anchor_texts.map( key => (key, 1) ).reduceByKey { case (acc, i) => acc + i } 这些工作都没有成功。检查工作日志后，我发现以下错误： 15/12/17 17:28:33 ERROR FileAppender: Error writing stream

我试图使用Spark计算维基百科XML转储中锚文本的频率

输入/输出：

输入：锚文本列表
输出：对（锚文本、频率）的列表

目前的解决办法是：

anchor_texts.map(
    key => (key, 1)
).reduceByKey {
    case (acc, i) => acc + i
}

这些工作都没有成功。检查工作日志后，我发现以下错误：

15/12/17 17:28:33 ERROR FileAppender: Error writing stream to file /cs/work/home/hxiao/spark-related/spark-1.5.2-bin-hadoop2.4/work/app-20151217163507-0000/28/stderr

java.io.IOException: Stream closed
        at java.io.BufferedInputStream.getBufIfOpen(BufferedInputStream.java:162)
        at java.io.BufferedInputStream.read1(BufferedInputStream.java:272)
        at java.io.BufferedInputStream.read(BufferedInputStream.java:334)
        at java.io.FilterInputStream.read(FilterInputStream.java:107)
        at org.apache.spark.util.logging.FileAppender.appendStreamToFile(FileAppender.scala:70)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply$mcV$sp(FileAppender.scala:39)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
        at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
        at org.apache.spark.util.logging.FileAppender$$anon$1.run(FileAppender.scala:38)

我觉得奇怪的是：

在此阶段之前，我还使用Spark收集从页面标题到页面id的映射。一切正常。然而，在这个阶段，它崩溃了

一些版本信息：

火花：1.5.2
斯卡拉：2.10.5
模式：群集模式

火花配置：

SPARK_EXECUTOR_MEMORY=8G
SPARK_DRIVER_MEMORY=8G
SPARK_EXECUTOR_CORES=8

我也觉得奇怪的是

如果我在一个较小的数据集上运行这个程序，事情会很顺利。但是，如果对整个维基百科来说，那么上面的错误是什么。

输入路径是什么？spark不会在其他操作之前将文件读入rdd，请尝试使用spark shell并运行如下代码

val rdd=sc.textFile（“路径”）

val样本=rdd.take（1）

查看路径是否可访问