Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala Spark:IOException,记录期间流关闭_Scala_Apache Spark_Ioexception - Fatal编程技术网

Scala Spark:IOException,记录期间流关闭

Scala Spark:IOException,记录期间流关闭,scala,apache-spark,ioexception,Scala,Apache Spark,Ioexception,我试图使用Spark计算维基百科XML转储中锚文本的频率 输入/输出: 输入:锚文本列表 输出:对(锚文本、频率)的列表 目前的解决办法是: anchor_texts.map( key => (key, 1) ).reduceByKey { case (acc, i) => acc + i } 这些工作都没有成功。检查工作日志后,我发现以下错误: 15/12/17 17:28:33 ERROR FileAppender: Error writing stream

我试图使用Spark计算维基百科XML转储中锚文本的频率

输入/输出:

  • 输入:锚文本列表
  • 输出:对(锚文本、频率)的列表
目前的解决办法是:

anchor_texts.map(
    key => (key, 1)
).reduceByKey {
    case (acc, i) => acc + i
}
这些工作都没有成功。检查工作日志后,我发现以下错误:

15/12/17 17:28:33 ERROR FileAppender: Error writing stream to file /cs/work/home/hxiao/spark-related/spark-1.5.2-bin-hadoop2.4/work/app-20151217163507-0000/28/stderr

java.io.IOException: Stream closed
        at java.io.BufferedInputStream.getBufIfOpen(BufferedInputStream.java:162)
        at java.io.BufferedInputStream.read1(BufferedInputStream.java:272)
        at java.io.BufferedInputStream.read(BufferedInputStream.java:334)
        at java.io.FilterInputStream.read(FilterInputStream.java:107)
        at org.apache.spark.util.logging.FileAppender.appendStreamToFile(FileAppender.scala:70)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply$mcV$sp(FileAppender.scala:39)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
        at org.apache.spark.util.logging.FileAppender$$anon$1$$anonfun$run$1.apply(FileAppender.scala:39)
        at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
        at org.apache.spark.util.logging.FileAppender$$anon$1.run(FileAppender.scala:38)
我觉得奇怪的是:

在此阶段之前,我还使用Spark收集从页面标题到页面id的映射。一切正常。然而,在这个阶段,它崩溃了

一些版本信息:

  • 火花:1.5.2
  • 斯卡拉:2.10.5
  • 模式:群集模式
火花配置:

SPARK_EXECUTOR_MEMORY=8G
SPARK_DRIVER_MEMORY=8G
SPARK_EXECUTOR_CORES=8
我也觉得奇怪的是


如果我在一个较小的数据集上运行这个程序,事情会很顺利。但是,如果对整个维基百科来说,那么上面的错误是什么。

输入路径是什么?spark不会在其他操作之前将文件读入rdd,请尝试使用spark shell并运行如下代码

val rdd=sc.textFile(“路径”)

val样本=rdd.take(1)

查看路径是否可访问