Apache spark 什么是;“流媒体”;在阿帕奇火花和阿帕奇弗林克中是什么意思?

Apache spark 什么是;“流媒体”;在阿帕奇火花和阿帕奇弗林克中是什么意思?,apache-spark,spark-streaming,apache-flink,Apache Spark,Spark Streaming,Apache Flink,当我进入网站时,我看到一句话: Spark Streaming使构建可伸缩的容错流应用程序变得容易 在网站上,有一句话: ApacheFlink是一个开放源代码平台,用于可伸缩的批处理和流数据处理 什么是流式应用程序和批量数据处理,流式数据处理?你能举一些具体的例子吗?它们是为传感器数据设计的吗 流式数据分析(与“批量”数据分析相反)指对典型的无限数据项流(通常称为事件)进行连续分析 流媒体应用程序的特点 流数据处理应用程序通常具有以下特点: 流式应用程序持续运行很长时间,并在事件出现时立即使

当我进入网站时,我看到一句话:

Spark Streaming使构建可伸缩的容错流应用程序变得容易

在网站上,有一句话:

ApacheFlink是一个开放源代码平台,用于可伸缩的批处理和流数据处理

什么是
流式应用程序
批量数据处理
流式数据处理
?你能举一些具体的例子吗?它们是为传感器数据设计的吗

流式数据分析(与“批量”数据分析相反)指对典型的无限数据项流(通常称为事件)进行连续分析

流媒体应用程序的特点 流数据处理应用程序通常具有以下特点:

  • 流式应用程序持续运行很长时间,并在事件出现时立即使用和处理事件。相反。批处理应用程序在文件或数据库中收集数据,然后进行处理

  • 流式应用程序经常关注结果的延迟。延迟是创建事件与分析应用程序考虑该事件之间的延迟

  • 由于流是无限的,许多计算不能引用整个流,而是引用流上的“窗口”。窗口是流事件子序列的视图(例如最近5分钟)。现实世界窗口统计的一个例子是“过去3天的平均股价”

  • 在流式应用程序中,事件的时间通常起着特殊的作用。根据事件的时间顺序来解释事件是很常见的。虽然某些批处理应用程序也可以做到这一点,但它并不是一个核心概念

流应用程序示例 流数据处理应用程序的典型示例有

  • 欺诈检测:应用程序试图确定交易是否符合以前观察到的行为。如果没有,则事务可能表示试图滥用。通常,延迟非常关键的应用程序

  • 异常检测:流式应用程序构建其观察到的事件的统计模型。异常值表示异常并可能触发警报。传感器数据可能是要分析异常的事件来源之一

  • 在线推荐人:如果访问网店的用户没有很多过去的行为信息,那么当她浏览网页和浏览文章时,从她的行为中学习,并直接开始生成一些初始推荐,是很有趣的

  • 最新的数据仓库:有一些有趣的文章介绍了如何将数据仓库基础设施建模为流式应用程序,其中事件流是数据库的一系列更改,流式应用程序将各种仓库计算为事件流的专用“聚合视图”

  • 还有很多


最有可能的是,谷歌已经有了答案。嗨@maasg,事实上我在谷歌上搜索过了。但我还是不明白他们的意思。我认为,传感器数据也应该是流媒体的一部分。但我不明白为什么我需要“流”的东西。我可以用任何机器学习库分析数据。我想,一定有比我想象的更多的,或者和我想象的完全不同的。流数据指的是无限的数据流。批处理数据是指有限的数据集。如果您希望连续接收和处理传感器数据,则需要流处理引擎。如果您有一段时间内捕获的传感器数据,您应该使用批处理引擎。您好@FabianHueske,非常感谢您的回答!我仍然有一个问题,如果我有一个非常大的数据集,这是由传感器收集的,(我没有收到任何新的数据)。是否仍然需要使用flink或spark streaming来分析数据集?不需要。如果数据集大小固定,则可以(也可能应该)使用批处理数据处理器。Apache Spark和Apache Flink都是很好的批处理系统。请回答一个简单的问题,股票市场价格和其他警报系统是否属于流处理类别,根据您的回答,它们确实有无限的数据,对吗?