pyspark从检查点进行流式恢复_Pyspark_Spark Streaming

pyspark从检查点进行流式恢复

pyspark

pyspark从检查点进行流式恢复,pyspark,spark-streaming,Pyspark,Spark Streaming,我使用pyspark流，并启用检查点。第一次启动成功，但当重新启动因错误而崩溃时： INFO scheduler.DAGScheduler:ResultStage 6（PythonRDD.scala:441上的runJob）在1160秒内失败，原因是由于阶段失败导致作业中止：阶段6.0中的任务0失败4次，最近的失败：阶段6.0中的任务0.3丢失（TID 86，h-1.e-contenta.com，executor 2）：org.apache.spark.api.pythonnexception

我使用pyspark流，并启用检查点。第一次启动成功，但当重新启动因错误而崩溃时：

INFO scheduler.DAGScheduler:ResultStage 6（PythonRDD.scala:441上的runJob）在1160秒内失败，原因是由于阶段失败导致作业中止：阶段6.0中的任务0失败4次，最近的失败：阶段6.0中的任务0.3丢失（TID 86，h-1.e-contenta.com，executor 2）：org.apache.spark.api.pythonnexception: 回溯（最近一次呼叫最后一次）：文件“/data1/thread/nm/usercache/appcache/application_1481115309392_0229/container_1481115309392_0229_01_000003/pyspark.zip/pyspark/worker.py”，第163行，主文件 func、探查器、反序列化器、序列化器=读取命令（pickleSer、infle）文件“/data1/warn/nm/usercache/appcache/application_1481115309392_0229/container_1481115309392_0229_01_000003/pyspark.zip/pyspark/worker.py”，第56行，在read_命令中 command=serializer.load（command.value）文件“/data1/warn/nm/usercache/appcache/application_1481115309392_0229/container_1481115309392_0229_01_000003/pyspark.zip/pyspark/serializers.py”，第431行，加载返回pickle.loads（obj，encoding=encoding） ImportError:没有名为

通过spark context addPyFile（）添加的Python模块

对不起，这是我的错

试试这个：

if __name__ == '__main__':
    ssc = StreamingContext.getOrCreate('', None)
    ssc.sparkContext.addPyFile()

    ssc.start()
    ssc.awaitTermination()

在哪里设置ssc.addPyFile？在ssc.getOrCreate中或在ssc.getOrCreate之后？在返回流式处理上下文的方法中：尝试在ssc=StreamingContext.getOrCreateOnly SparkContext之后设置其他ssc.addPyFile，StreamingContext没有方法addPyFile。添加了代码示例非常感谢，这真的很有帮助！虽然这对我来说仍然是一个谜，为什么在创建spark context时它不起作用。。。

if __name__ == '__main__':
    ssc = StreamingContext.getOrCreate('', None)
    ssc.sparkContext.addPyFile()

    ssc.start()
    ssc.awaitTermination()