Apache spark 什么是;“流媒体”;在阿帕奇火花和阿帕奇弗林克中是什么意思?
当我进入网站时,我看到一句话: Spark Streaming使构建可伸缩的容错流应用程序变得容易 在网站上,有一句话: ApacheFlink是一个开放源代码平台,用于可伸缩的批处理和流数据处理 什么是Apache spark 什么是;“流媒体”;在阿帕奇火花和阿帕奇弗林克中是什么意思?,apache-spark,spark-streaming,apache-flink,Apache Spark,Spark Streaming,Apache Flink,当我进入网站时,我看到一句话: Spark Streaming使构建可伸缩的容错流应用程序变得容易 在网站上,有一句话: ApacheFlink是一个开放源代码平台,用于可伸缩的批处理和流数据处理 什么是流式应用程序和批量数据处理,流式数据处理?你能举一些具体的例子吗?它们是为传感器数据设计的吗 流式数据分析(与“批量”数据分析相反)指对典型的无限数据项流(通常称为事件)进行连续分析 流媒体应用程序的特点 流数据处理应用程序通常具有以下特点: 流式应用程序持续运行很长时间,并在事件出现时立即使
流式应用程序
和批量数据处理
,流式数据处理
?你能举一些具体的例子吗?它们是为传感器数据设计的吗 流式数据分析(与“批量”数据分析相反)指对典型的无限数据项流(通常称为事件)进行连续分析
流媒体应用程序的特点
流数据处理应用程序通常具有以下特点:
- 流式应用程序持续运行很长时间,并在事件出现时立即使用和处理事件。相反。批处理应用程序在文件或数据库中收集数据,然后进行处理
- 流式应用程序经常关注结果的延迟。延迟是创建事件与分析应用程序考虑该事件之间的延迟
- 由于流是无限的,许多计算不能引用整个流,而是引用流上的“窗口”。窗口是流事件子序列的视图(例如最近5分钟)。现实世界窗口统计的一个例子是“过去3天的平均股价”
- 在流式应用程序中,事件的时间通常起着特殊的作用。根据事件的时间顺序来解释事件是很常见的。虽然某些批处理应用程序也可以做到这一点,但它并不是一个核心概念
- 欺诈检测:应用程序试图确定交易是否符合以前观察到的行为。如果没有,则事务可能表示试图滥用。通常,延迟非常关键的应用程序
- 异常检测:流式应用程序构建其观察到的事件的统计模型。异常值表示异常并可能触发警报。传感器数据可能是要分析异常的事件来源之一
- 在线推荐人:如果访问网店的用户没有很多过去的行为信息,那么当她浏览网页和浏览文章时,从她的行为中学习,并直接开始生成一些初始推荐,是很有趣的
- 最新的数据仓库:有一些有趣的文章介绍了如何将数据仓库基础设施建模为流式应用程序,其中事件流是数据库的一系列更改,流式应用程序将各种仓库计算为事件流的专用“聚合视图”
- 还有很多