Apache flink apacheflink中的存储
在处理了数以百万计的事件/数据之后,哪里是存储信息的最佳位置,可以说保存数以百万计的事件是值得的?我看到一个封闭的拼花格式,但是,默认的是HDFS?我关心的是保存后(在哪里?)是否容易(快速!)检索到该数据?Apache Flink没有与特定的存储引擎或格式耦合。存储Flink计算结果的最佳位置取决于您的用例Apache flink apacheflink中的存储,apache-flink,Apache Flink,在处理了数以百万计的事件/数据之后,哪里是存储信息的最佳位置,可以说保存数以百万计的事件是值得的?我看到一个封闭的拼花格式,但是,默认的是HDFS?我关心的是保存后(在哪里?)是否容易(快速!)检索到该数据?Apache Flink没有与特定的存储引擎或格式耦合。存储Flink计算结果的最佳位置取决于您的用例 您正在运行批处理作业还是流式作业 你想对结果做什么 您是否需要对数据进行批量(完全扫描)、点式或连续流式访问 数据的格式是什么?平面结构(关系)、嵌套、blob等 根据这些问题的答案,
- 您正在运行批处理作业还是流式作业
- 你想对结果做什么
- 您是否需要对数据进行批量(完全扫描)、点式或连续流式访问
- 数据的格式是什么?平面结构(关系)、嵌套、blob等
Flink为这些系统中的大多数提供OutputFormats(有些通过Hadoop OutputFormats的包装)。“最佳”系统取决于您的用例 Hello@FabianHueske非常感谢你的回复,你知道有一篇博客文章[或多或少像这篇]()对存储选项进行了比较吗?一些信息显示了您对上述不同选项的见解?再次感谢!对不起,我不知道这样的博客帖子。但是,存储决策独立于处理系统,并适用于与Flink类似的其他系统,如Apache Hadoop、Apache Spark、Apache Storm等。这个话题应该有一些东西。好吧:(非常感谢Fabian!我会尝试找到一些东西,当然有人做了一个有不同选择的基准:)