Apache spark 火花流从停止中恢复_Apache Spark_Real Time_Apache Storm

Apache spark 火花流从停止中恢复

apache-spark apache-storm

Apache spark 火花流从停止中恢复,apache-spark,real-time,apache-storm,Apache Spark,Real Time,Apache Storm,我正在寻找一种将日志数据从文件流式传输到数据库的方法。我一直在阅读和管理实时数据，但我不知道如何管理未经处理的数据，因为数据中断我的意思是，假设系统正在运行，数据被实时处理，系统突然停止，10分钟后重新启动。有没有一种方法可以在不影响实时流的情况下处理这些挂起的数据谢谢例如，在Storm上，您需要从可靠的数据源读取数据，该数据源保存传入的消息，并允许消费者从停止点继续。此类数据源的一个示例是kafka 在的情况下，实时流不会因为您的消费者（storm、spark或您正在使用的任何东西）停止而

我正在寻找一种将日志数据从文件流式传输到数据库的方法。我一直在阅读和管理实时数据，但我不知道如何管理未经处理的数据，因为数据中断

我的意思是，假设系统正在运行，数据被实时处理，系统突然停止，10分钟后重新启动。有没有一种方法可以在不影响实时流的情况下处理这些挂起的数据

谢谢

例如，在

Storm

上，您需要从可靠的数据源读取数据，该数据源保存传入的消息，并允许消费者从停止点继续。此类数据源的一个示例是

kafka

在的情况下，实时流不会因为您的消费者（storm、spark或您正在使用的任何东西）停止而停止。Kafka将继续接收消息，并将继续向订阅特定流的客户端提供消息

容错的关键在于您选择分发实时流的系统，而不是您选择处理实时流的工具。只要消息系统允许，您的处理工具始终可以从停止点恢复并继续处理

另一个可以处理消费者故障的消息系统代理是
rabbitmq
谢谢，我想到了卡夫卡。很抱歉，我之前不太清楚，我要找的是Spark或Storm如何处理流式处理和批处理数据。返回后，将存储需要处理的数据，可能是数小时的数据，但这不会影响流式处理过程，因为我始终需要在监控系统上显示实时数据。例如，如果消息在X秒后未被消费，有没有办法让卡夫卡将其移动到另一个主题？这样一来，客户就可以拥有一个实时消费者和一个批量消费者，对吗？谢谢你advace@GBrian如果要处理批处理数据，需要先将其复制到hdfs之类的位置（例如，可以使用Camus将数据从数据kafka复制到hdfs），然后处理批处理（通常这意味着hadoop或spark）。不能在kafka上运行批处理作业。我有我的卡夫卡主题要保存7天，但这只是为了确保如果出现问题（例如加缪停止工作），我有7天时间修复它，在数据被丢弃之前…@GBrian和not Spark Stream和Spark Batch不是一回事。暴风雪只做实时的