Apache spark 如何使用Spark Streaming与Azure EventHub和HDFS blob一起识别数据拷贝延迟

Apache spark 如何使用Spark Streaming与Azure EventHub和HDFS blob一起识别数据拷贝延迟,apache-spark,spark-streaming,azure-eventhub,Apache Spark,Spark Streaming,Azure Eventhub,我目前正在使用spark streaming将近乎实时的数据从Azure EventHub流到HDFS blob位置,此流作业正在全天候运行,我想了解是否存在任何数据复制延迟b/w EventHub和HDFS blob。我知道我可以在流分析中轻松做到这一点,在流分析中,我有一个水印窗口,可以告诉我有多少小时/分钟的数据延迟。但是,有没有一种方法可以在Spark Streaming中实现这一点,有没有一段代码可以让我编写,看看数据延迟是什么。请带我到这里。希望我的问题清楚 基本上,我不想丢失Azu

我目前正在使用spark streaming将近乎实时的数据从Azure EventHub流到HDFS blob位置,此流作业正在全天候运行,我想了解是否存在任何数据复制延迟b/w EventHub和HDFS blob。我知道我可以在流分析中轻松做到这一点,在流分析中,我有一个水印窗口,可以告诉我有多少小时/分钟的数据延迟。但是,有没有一种方法可以在Spark Streaming中实现这一点,有没有一段代码可以让我编写,看看数据延迟是什么。请带我到这里。希望我的问题清楚

基本上,我不想丢失Azure EventHub中可用但HDFS blob中不可用的任何数据,因为EventHub只保存2天的数据,如果任何数据延迟超过2天,那么我肯定会丢失数据