Apache spark &引用；java.io.NotSerializableException:org.apache.spark.streaming.StreamingContext“；执行火花流时_Apache Spark_Spark Streaming

Apache spark &引用；java.io.NotSerializableException:org.apache.spark.streaming.StreamingContext“；执行火花流时

apache-spark

Apache spark &引用；java.io.NotSerializableException:org.apache.spark.streaming.StreamingContext“；执行火花流时,apache-spark,spark-streaming,Apache Spark,Spark Streaming,当我在纱线上执行spark streaming应用程序时，我继续收到以下错误发生错误的原因及解决方法？任何建议都会有帮助，谢谢~ 15/05/07 11:11:50 INFO dstream.StateDStream: Marking RDD 2364 for time 1430968310000 ms for checkpointing 15/05/07 11:11:50 INFO scheduler.JobScheduler: Added jobs for time 1430968

当我在纱线上执行spark streaming应用程序时，我继续收到以下错误

发生错误的原因及解决方法？任何建议都会有帮助，谢谢~

15/05/07 11:11:50 INFO dstream.StateDStream: Marking RDD 2364 for time 1430968310000 ms for checkpointing
    15/05/07 11:11:50 INFO scheduler.JobScheduler: Added jobs for time 1430968310000 ms
    15/05/07 11:11:50 INFO scheduler.JobGenerator: Checkpointing graph for time 1430968310000 ms
    15/05/07 11:11:50 INFO streaming.DStreamGraph: Updating checkpoint data for time 1430968310000 ms
    15/05/07 11:11:50 INFO streaming.DStreamGraph: Updated checkpoint data for time 1430968310000 ms
    15/05/07 11:11:50 ERROR actor.OneForOneStrategy: org.apache.spark.streaming.StreamingContext
    java.io.NotSerializableException: org.apache.spark.streaming.StreamingContext
            at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184)
            at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
            at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
            at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
            at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
            at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
            at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
            at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
            at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
            at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
            at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
            at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
            at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)

spark流应用程序代码如下，我在spark shell中执行它

    import kafka.cluster.Cluster
import kafka.serializer.StringDecoder
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Duration, StreamingContext}
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.StreamingContext._

val updateFunc = (values: Seq[Int], state: Option[Int]) => {
  Some(0)
}

val ssc = new StreamingContext(sc,
  new Duration(5000))
ssc.checkpoint(".")

val lines = KafkaUtils.createStream(ssc, "10.1.10.21:2181", "kafka_spark_streaming", Map("hello_test" -> 3))

val uuidDstream = lines.transform(rdd => rdd.map(_._2)).map(x => (x, 1)).updateStateByKey[Int](updateFunc)
uuidDstream.count().print()

ssc.start()
ssc.awaitTermination()

在

updateStateByKey

的闭包中使用的对

val updateFunc

的引用将该实例的其余部分拉入闭包中，并使用StreamingContext

两种选择：

快速修复：声明流式上下文瞬态=>
```
@transient val ssc=…
```
将数据流声明注释为
```
@transient
```
也是一个好主意
更好的解决方法：将函数放在单独的对象中

像这样：

case object TransformFunctions {
    val updateFunc = ???
}

我们不是读心术的人。你能把密码寄出去吗？