Apache spark 如何使用Spark Streaming与Azure EventHub和HDFS blob一起识别数据拷贝延迟_Apache Spark_Spark Streaming_Azure Eventhub

Apache spark 如何使用Spark Streaming与Azure EventHub和HDFS blob一起识别数据拷贝延迟

apache-spark

Apache spark 如何使用Spark Streaming与Azure EventHub和HDFS blob一起识别数据拷贝延迟,apache-spark,spark-streaming,azure-eventhub,Apache Spark,Spark Streaming,Azure Eventhub,我目前正在使用spark streaming将近乎实时的数据从Azure EventHub流到HDFS blob位置，此流作业正在全天候运行，我想了解是否存在任何数据复制延迟b/w EventHub和HDFS blob。我知道我可以在流分析中轻松做到这一点，在流分析中，我有一个水印窗口，可以告诉我有多少小时/分钟的数据延迟。但是，有没有一种方法可以在Spark Streaming中实现这一点，有没有一段代码可以让我编写，看看数据延迟是什么。请带我到这里。希望我的问题清楚基本上，我不想丢失Azu

我目前正在使用spark streaming将近乎实时的数据从Azure EventHub流到HDFS blob位置，此流作业正在全天候运行，我想了解是否存在任何数据复制延迟b/w EventHub和HDFS blob。我知道我可以在流分析中轻松做到这一点，在流分析中，我有一个水印窗口，可以告诉我有多少小时/分钟的数据延迟。但是，有没有一种方法可以在Spark Streaming中实现这一点，有没有一段代码可以让我编写，看看数据延迟是什么。请带我到这里。希望我的问题清楚

基本上，我不想丢失Azure EventHub中可用但HDFS blob中不可用的任何数据，因为EventHub只保存2天的数据，如果任何数据延迟超过2天，那么我肯定会丢失数据