pyspark从检查点进行流式恢复

pyspark从检查点进行流式恢复,pyspark,spark-streaming,Pyspark,Spark Streaming,我使用pyspark流,并启用检查点。 第一次启动成功,但当重新启动因错误而崩溃时: INFO scheduler.DAGScheduler:ResultStage 6(PythonRDD.scala:441上的runJob)在1160秒内失败,原因是由于阶段失败导致作业中止:阶段6.0中的任务0失败4次,最近的失败:阶段6.0中的任务0.3丢失(TID 86,h-1.e-contenta.com,executor 2):org.apache.spark.api.pythonnexception

我使用pyspark流,并启用检查点。 第一次启动成功,但当重新启动因错误而崩溃时:

INFO scheduler.DAGScheduler:ResultStage 6(PythonRDD.scala:441上的runJob)在1160秒内失败,原因是由于阶段失败导致作业中止:阶段6.0中的任务0失败4次,最近的失败:阶段6.0中的任务0.3丢失(TID 86,h-1.e-contenta.com,executor 2):org.apache.spark.api.pythonnexception: 回溯(最近一次呼叫最后一次): 文件“/data1/thread/nm/usercache/appcache/application_1481115309392_0229/container_1481115309392_0229_01_000003/pyspark.zip/pyspark/worker.py”,第163行,主文件 func、探查器、反序列化器、序列化器=读取命令(pickleSer、infle) 文件“/data1/warn/nm/usercache/appcache/application_1481115309392_0229/container_1481115309392_0229_01_000003/pyspark.zip/pyspark/worker.py”,第56行,在read_命令中 command=serializer.load(command.value) 文件“/data1/warn/nm/usercache/appcache/application_1481115309392_0229/container_1481115309392_0229_01_000003/pyspark.zip/pyspark/serializers.py”,第431行,加载返回pickle.loads(obj,encoding=encoding) ImportError:没有名为

通过spark context addPyFile()添加的Python模块


对不起,这是我的错

试试这个:

if __name__ == '__main__':
    ssc = StreamingContext.getOrCreate('', None)
    ssc.sparkContext.addPyFile()

    ssc.start()
    ssc.awaitTermination()

在哪里设置ssc.addPyFile?在ssc.getOrCreate中或在ssc.getOrCreate之后?在返回流式处理上下文的方法中:尝试在ssc=StreamingContext.getOrCreateOnly SparkContext之后设置其他ssc.addPyFile,StreamingContext没有方法addPyFile。添加了代码示例非常感谢,这真的很有帮助!虽然这对我来说仍然是一个谜,为什么在创建spark context时它不起作用。。。
if __name__ == '__main__':
    ssc = StreamingContext.getOrCreate('', None)
    ssc.sparkContext.addPyFile()

    ssc.start()
    ssc.awaitTermination()