Apache spark 火花流从停止中恢复

Apache spark 火花流从停止中恢复,apache-spark,real-time,apache-storm,Apache Spark,Real Time,Apache Storm,我正在寻找一种将日志数据从文件流式传输到数据库的方法。我一直在阅读和管理实时数据,但我不知道如何管理未经处理的数据,因为数据中断 我的意思是,假设系统正在运行,数据被实时处理,系统突然停止,10分钟后重新启动。有没有一种方法可以在不影响实时流的情况下处理这些挂起的数据 谢谢例如,在Storm上,您需要从可靠的数据源读取数据,该数据源保存传入的消息,并允许消费者从停止点继续。此类数据源的一个示例是kafka 在的情况下,实时流不会因为您的消费者(storm、spark或您正在使用的任何东西)停止而

我正在寻找一种将日志数据从文件流式传输到数据库的方法。我一直在阅读和管理实时数据,但我不知道如何管理未经处理的数据,因为数据中断

我的意思是,假设系统正在运行,数据被实时处理,系统突然停止,10分钟后重新启动。有没有一种方法可以在不影响实时流的情况下处理这些挂起的数据


谢谢

例如,在
Storm
上,您需要从可靠的数据源读取数据,该数据源保存传入的消息,并允许消费者从停止点继续。此类数据源的一个示例是
kafka

在的情况下,实时流不会因为您的消费者(storm、spark或您正在使用的任何东西)停止而停止。Kafka将继续接收消息,并将继续向订阅特定流的客户端提供消息

容错的关键在于您选择分发实时流的系统,而不是您选择处理实时流的工具。只要消息系统允许,您的处理工具始终可以从停止点恢复并继续处理


另一个可以处理消费者故障的消息系统代理是
rabbitmq

谢谢,我想到了卡夫卡。很抱歉,我之前不太清楚,我要找的是Spark或Storm如何处理流式处理和批处理数据。返回后,将存储需要处理的数据,可能是数小时的数据,但这不会影响流式处理过程,因为我始终需要在监控系统上显示实时数据。例如,如果消息在X秒后未被消费,有没有办法让卡夫卡将其移动到另一个主题?这样一来,客户就可以拥有一个实时消费者和一个批量消费者,对吗?谢谢你advace@GBrian如果要处理批处理数据,需要先将其复制到hdfs之类的位置(例如,可以使用Camus将数据从数据kafka复制到hdfs),然后处理批处理(通常这意味着hadoop或spark)。不能在kafka上运行批处理作业。我有我的卡夫卡主题要保存7天,但这只是为了确保如果出现问题(例如加缪停止工作),我有7天时间修复它,在数据被丢弃之前…@GBrian和not Spark Stream和Spark Batch不是一回事。暴风雪只做实时的