Pyspark 为什么火花流被称为近实时?

Pyspark 为什么火花流被称为近实时?,pyspark,real-time,near-real-time,Pyspark,Real Time,Near Real Time,我知道spark streaming使用微批处理数据,但在某些情况下,处理时间不到一秒钟。我的问题是“在senario中,它不能被称为纯实时处理而不是近实时处理吗?”我想说的是,当数据被收集并直接推送到仪表板或系统时,我们只能谈论度量、警报和优化的实时性,而没有任何类型的ETL过程,实时的目的主要是,速度 无论何时,只要有一个批量提取历史趋势或基准的过程,尽管只需不到一秒钟,但它不是实时的,而是接近实时的,这是因为它们谈论的是接近实时的 所以,为了回答您的问题,我想说,不,是接近实时的,因为您正

我知道spark streaming使用微批处理数据,但在某些情况下,处理时间不到一秒钟。我的问题是“在senario中,它不能被称为纯实时处理而不是近实时处理吗?”

我想说的是,当数据被收集并直接推送到仪表板或系统时,我们只能谈论度量、警报和优化的实时性,而没有任何类型的ETL过程,实时的目的主要是,速度

无论何时,只要有一个批量提取历史趋势或基准的过程,尽管只需不到一秒钟,但它不是实时的,而是接近实时的,这是因为它们谈论的是接近实时的

所以,为了回答您的问题,我想说,不,是接近实时的,因为您正在批处理和处理

我希望有帮助


Juan

我想说的是,我们只能谈论指标、警报和优化的实时性,当数据被收集并直接推送到仪表板或系统时,没有任何类型的ETL过程,实时性的目的主要是速度

无论何时,只要有一个批量提取历史趋势或基准的过程,尽管只需不到一秒钟,但它不是实时的,而是接近实时的,这是因为它们谈论的是接近实时的

所以,为了回答您的问题,我想说,不,是接近实时的,因为您正在批处理和处理

我希望有帮助


Juan

Spark Streaming将数据流划分为X秒的批,称为数据流,它在内部是一个RDD序列,每个批间隔一个。每个RDD都包含在批处理间隔期间接收到的记录。因为它的小批处理过程称为近实时而非实时。

Spark Streaming将数据流分成X秒的批处理,称为数据流,数据流内部是一个RDD序列,每个批处理间隔一个。每个RDD都包含在批处理间隔期间收到的记录。因为它的小批处理过程称为近实时而非实时。

我刚刚询问了我们的大数据专家(他在我右边工作)他说,在大数据中,Spark流被认为是近实时的,因为他的精度接近毫秒,在Storm或new Spark(结构化流化)等框架中,你的工作精度为纳秒,这就是大数据中的纯粹主义者所称的实时。我刚刚问过我们的大数据专家(他在我右边工作)他说,在大数据中,Spark流被认为是近实时的,因为他的精度接近毫秒,而在Storm或新Spark(结构化流化)等框架中,你的工作精度为纳秒,这就是大数据中的纯粹主义者所称的实时。