使用python spark直接方法时如何从检查点恢复？_Python_Apache Spark_Apache Kafka_Pyspark_Spark Streaming - Fatal编程技术网

使用python spark直接方法时如何从检查点恢复？

python apache-spark apache-kafka pyspark

使用python spark直接方法时如何从检查点恢复？,python,apache-spark,apache-kafka,pyspark,spark-streaming,Python,Apache Spark,Apache Kafka,Pyspark,Spark Streaming,阅读后，我尝试在spark streaming中使用checkpoint和getOrCreate。一些片段： def get_ssc(): sc = SparkContext("yarn-client") ssc = StreamingContext(sc, 10) # calc every 10s ks = KafkaUtils.createDirectStream( ssc, ['lucky-track'], {"metadata.broker.li

阅读后，我尝试在spark streaming中使用

checkpoint

和

getOrCreate

。一些片段：

def get_ssc():
    sc = SparkContext("yarn-client")
    ssc = StreamingContext(sc, 10)  # calc every 10s
    ks = KafkaUtils.createDirectStream(
        ssc, ['lucky-track'], {"metadata.broker.list": KAFKA_BROKER})
    process_data(ks)

    ssc.checkpoint(CHECKPOINT_DIR)
    return ssc

if __name__ == '__main__':
    ssc = StreamingContext.getOrCreate(CHECKPOINT_DIR, get_ssc)

    ssc.start()
    ssc.awaitTermination()

代码可以很好地用于恢复，但是恢复的上下文总是在旧的进程函数上工作。这意味着，即使我更改了map/reduce函数代码，它也根本不起作用

直到现在，spark（1.5.2）仍然不支持python的任意偏移量。那么，我应该怎么做才能使它正常工作呢？
这种行为是“设计的”，对于java/scala Spark应用程序也是有效的。整个代码在检查点时被序列化。如果代码更改，检查点数据应该被截断。
嗯……我知道了。那么，除了我自己录制偏移量外，你知道恢复的正确方法吗？

[apache spark]相关文章推荐

Apache spark 根据spark中第二个rdd的值减去rdd的行 apache-spark

Apache spark 火花启动执行器的数量超过指定数量 apache-spark memory-management pyspark

Apache spark SparkSQL数据帧保留分区列 apache-spark

Apache spark 火花流纱：执行器未充分利用 apache-spark

Apache spark Cassandra服务器在同时处理多个查询时死亡 apache-spark cassandra

Apache spark Cassandra启动错误：DseModule.java:103-org/apache/spark/util/ByteBufferInputStream。退出 apache-spark cassandra

Apache spark 在HDFS上的spark输出上创建配置单元表 apache-spark hive

Apache spark Spark ML中的Param[]和Params[]是什么 apache-spark

Apache spark 两个表联接的Spark性能问题 apache-spark hive

Apache spark Spark 2.3是否改变了处理小文件的方式？ apache-spark pyspark

Apache spark 为什么我的拼花地板分区数据比非分区数据慢？ apache-spark

Apache spark Spark集群中的配置单元查询 apache-spark hive

Apache spark 在pyspark df的数组列中，从第一次出现到最后一次值进行拾取 apache-spark pyspark

Apache spark 减少（key，val）RDD和x27列表中的值；s、给定这些列表是另一个（key，val）RDD'；s apache-spark pyspark

Apache spark Spark流作业中Spark元数据大小增加 apache-spark

Apache spark PySpark：合并聚合和窗口函数 apache-spark pyspark

Apache spark 如何将Zeeplein输入字段值传递给spark程序 apache-spark

Apache spark Spark删除重复的单元格值和 apache-spark

Apache spark 从Spark 2.2.0中管道模型的输出中获取二进制逻辑回归摘要 apache-spark machine-learning

Apache spark Pyspark-Round函数的故障 apache-spark pyspark

随机文章推荐

Calendar Outlook在订阅Ical后不显示事件 calendar outlook

Calendar 剑道日历的样式无效 calendar kendo-ui

Calendar 如何使用量角器书写日历e2e案例？ calendar protractor

Calendar 响应日历：获取事件更改的日期 calendar

Calendar Alfresco-任务和日历的状态 calendar alfresco

Calendar 法罗Smalltalk打印星期五天 calendar smalltalk

calendarView是否使用共享会议室帐户？ calendar microsoft-graph-api

google calendar javascript api：如何在我的google帐户中而不是在oauth身份验证用户中创建日历？ calendar

[python]相关推荐

Python Twill/Mechanize对html内容的访问
Python

试图将Gtk.Application与python一起使用，但无法处理open
Python

python集合中的对象相等性。计数器
Python Dictionary

apache上python flask应用程序的随机问题
Python Apache Memory Matplotlib Flask

Python 如何直接访问Py2app（或Py2exe）程序中的资源？
Python

Python py.test不会从数据库中提取数据
Python Database Django Django Rest Framework

Python 大熊猫的时态分类
Python Pandas

Python Mako模板和安全性
Python

Python 而循环从如何像计算机科学家一样思考
Python

Hough圆bug（Python，Open CV）
Python Opencv

使用Python从法语Word文档提取XML时出现问题：生成非法字符
Python Xml Character Encoding

Python 从Windows cmd安装Django时遇到问题&引用；pip安装django“；显示错误，但应设置路径
Python Django Windows

Python 如果dataframe是多索引的，如何在特定列上进行计算？
Python Python 3.x Pandas Dataframe

Python lambda排序函数如何正确编码？
Python Python 3.x List Sorting

Python 试图删除字符串中除最后一个字符外的所有字符，但是它'；s删除一些不相关的字符
Python

Python量子傅里叶变换
Python

Python-基于列值获取百分比
Python Pandas Dataframe

Python 根据时间列中两个值之间的差异，将数据帧中的每一行重复N次
Python Pandas Dataframe

Python 从与0.0标高相交的直线获取值
Python Geometry

Python 从数据帧分配变量
Python Pandas Dataframe

在Python中动态高亮显示不符合阈值的行
Python Pandas

Python 计算阵列之间的距离
Python Python 3.x Numpy

Python 熊猫减少了更多的时间间隔？
Python Pandas

Python 向消息添加django格式
Python Django

Python Django查找具有相同JSONfield值的自定义用户
Python Django Database Django Models

转换为exe的python脚本能否获得它'；她叫什么名字？
Python

Python 将值复制到空张量中
Python

Python 重新塑造ResNet50的MNIST
Python Tensorflow Keras

在python中，字符希望以多符号结构打印的模式问题是如何使用空格的？
Python String For Loop

Python 如果在一个单元格中存在具有不同信息的相同类，则在列表的单个元素中获取javascript表中单元格的所有条目
Python Web Scraping

Tags

Gmail Wxpython Zsh Domain Driven Design Mqtt React Native Ubuntu Internet Explorer 8 Node.js Session Pandas Debugging Artificial Intelligence Ajax R Join F# Gnuplot Azure Devops Graphics Webstorm Powershell Csv Active Directory Uitableview Docker Open Source Rabbitmq Path Synchronization Windows Services Sails.js Umbraco Map Azure Functions Doctrine Orm Openerp Jsf 2 Xml Jetty Vue.js Cluster Computing Ssis Google Chrome Sockets Kubernetes Seo Svn Forms Moodle Python 2.7 Ethereum Go Stream Workflow Symfony1 Aem Rest Ibm Cloud Angularjs Mfc Https Caching Android Emulator Mule Visual Studio 2012 Directory Socket.io Common Lisp Syntax Architecture Assembly Lisp Hive Vector Sencha Touch 2 Blazor Unit Testing E Commerce Installation Sms Linker Streaming Kdb Serialization Camera Axapta Pagination Maven Canvas Kentico Mediawiki Arm Hyperlink Qt4 Android Selenium Iphone Google Chrome Devtools Deep Learning Doxygen Magento Dataframe Marklogic Requirejs Codenameone Mapreduce Statistics Opencv Tableau Api Version Control Jwt Wicket Yocto Composer Php C# 4.0 Outlook Keyboard Cordova Operating System Perl Ssrs 2008 Playframework Build Autohotkey Plsql Compression Reference Msbuild Glassfish Zend Framework Hadoop Silverlight Ecmascript 6 Blockchain Google Colaboratory Bash Vaadin Notepad++ Snowflake Cloud Data Platform Google Maps Api 3 Salesforce Perforce Directx Delphi Dll Sbt Amazon S3 Xamarin Asynchronous Ruby Text Mdx Configuration Collections Java 8 Sip Gulp Asp.net Mvc 2 Apache Gatsby Vhdl Office365 Mapbox Firefox Gps Openlayers Google Analytics Aframe Websphere Google Bigquery Character Encoding Javafx Xampp Jaxb Download Electron Netsuite Dart Asp.net Web Api Sql Server 2008 R2 Maps Odata Jestjs Pip Jdbc Webgl Udp Machine Learning Passwords Matlab Nativescript Linq Url Rewriting Corda Sqlalchemy Unicode Curl Gwt Animation Google Chrome Extension

Copyright © 2024. All Rights Reserved by - Fatal编程技术网