Pyspark 为什么火花流被称为近实时？_Pyspark_Real Time_Near Real Time

Pyspark 为什么火花流被称为近实时？

pyspark

Pyspark 为什么火花流被称为近实时？,pyspark,real-time,near-real-time,Pyspark,Real Time,Near Real Time,我知道spark streaming使用微批处理数据，但在某些情况下，处理时间不到一秒钟。我的问题是“在senario中，它不能被称为纯实时处理而不是近实时处理吗？”我想说的是，当数据被收集并直接推送到仪表板或系统时，我们只能谈论度量、警报和优化的实时性，而没有任何类型的ETL过程，实时的目的主要是，速度无论何时，只要有一个批量提取历史趋势或基准的过程，尽管只需不到一秒钟，但它不是实时的，而是接近实时的，这是因为它们谈论的是接近实时的所以，为了回答您的问题，我想说，不，是接近实时的，因为您正

我知道spark streaming使用微批处理数据，但在某些情况下，处理时间不到一秒钟。我的问题是“在senario中，它不能被称为纯实时处理而不是近实时处理吗？”

我想说的是，当数据被收集并直接推送到仪表板或系统时，我们只能谈论度量、警报和优化的实时性，而没有任何类型的ETL过程，实时的目的主要是，速度

无论何时，只要有一个批量提取历史趋势或基准的过程，尽管只需不到一秒钟，但它不是实时的，而是接近实时的，这是因为它们谈论的是接近实时的

所以，为了回答您的问题，我想说，不，是接近实时的，因为您正在批处理和处理

我希望有帮助

Juan

我想说的是，我们只能谈论指标、警报和优化的实时性，当数据被收集并直接推送到仪表板或系统时，没有任何类型的ETL过程，实时性的目的主要是速度

无论何时，只要有一个批量提取历史趋势或基准的过程，尽管只需不到一秒钟，但它不是实时的，而是接近实时的，这是因为它们谈论的是接近实时的

所以，为了回答您的问题，我想说，不，是接近实时的，因为您正在批处理和处理

我希望有帮助

Juan

Spark Streaming将数据流划分为X秒的批，称为数据流，它在内部是一个RDD序列，每个批间隔一个。每个RDD都包含在批处理间隔期间接收到的记录。因为它的小批处理过程称为近实时而非实时。

Spark Streaming将数据流分成X秒的批处理，称为数据流，数据流内部是一个RDD序列，每个批处理间隔一个。每个RDD都包含在批处理间隔期间收到的记录。因为它的小批处理过程称为近实时而非实时。

我刚刚询问了我们的大数据专家（他在我右边工作）他说，在大数据中，Spark流被认为是近实时的，因为他的精度接近毫秒，在Storm或new Spark（结构化流化）等框架中，你的工作精度为纳秒，这就是大数据中的纯粹主义者所称的实时。我刚刚问过我们的大数据专家（他在我右边工作）他说，在大数据中，Spark流被认为是近实时的，因为他的精度接近毫秒，而在Storm或新Spark（结构化流化）等框架中，你的工作精度为纳秒，这就是大数据中的纯粹主义者所称的实时。