Apache flink apacheflink中的存储

Apache flink apacheflink中的存储,apache-flink,Apache Flink,在处理了数以百万计的事件/数据之后,哪里是存储信息的最佳位置,可以说保存数以百万计的事件是值得的?我看到一个封闭的拼花格式,但是,默认的是HDFS?我关心的是保存后(在哪里?)是否容易(快速!)检索到该数据?Apache Flink没有与特定的存储引擎或格式耦合。存储Flink计算结果的最佳位置取决于您的用例 您正在运行批处理作业还是流式作业 你想对结果做什么 您是否需要对数据进行批量(完全扫描)、点式或连续流式访问 数据的格式是什么?平面结构(关系)、嵌套、blob等 根据这些问题的答案,

在处理了数以百万计的事件/数据之后,哪里是存储信息的最佳位置,可以说保存数以百万计的事件是值得的?我看到一个封闭的拼花格式,但是,默认的是HDFS?我关心的是保存后(在哪里?)是否容易(快速!)检索到该数据?

Apache Flink没有与特定的存储引擎或格式耦合。存储Flink计算结果的最佳位置取决于您的用例

  • 您正在运行批处理作业还是流式作业
  • 你想对结果做什么
  • 您是否需要对数据进行批量(完全扫描)、点式或连续流式访问
  • 数据的格式是什么?平面结构(关系)、嵌套、blob等
根据这些问题的答案,您可以从各种存储后端中进行选择,例如 -用于批量访问的Apache HDFS(具有不同的存储格式,如拼花地板、ORC、自定义二进制文件) -如果要以流的形式访问数据,请使用ApacheKafka -用于数据点访问的键值存储,如ApacheHBase和ApacheCassandra -如MongoDB、MySQL等数据库


Flink为这些系统中的大多数提供OutputFormats(有些通过Hadoop OutputFormats的包装)。“最佳”系统取决于您的用例

Hello@FabianHueske非常感谢你的回复,你知道有一篇博客文章[或多或少像这篇]()对存储选项进行了比较吗?一些信息显示了您对上述不同选项的见解?再次感谢!对不起,我不知道这样的博客帖子。但是,存储决策独立于处理系统,并适用于与Flink类似的其他系统,如Apache Hadoop、Apache Spark、Apache Storm等。这个话题应该有一些东西。好吧:(非常感谢Fabian!我会尝试找到一些东西,当然有人做了一个有不同选择的基准:)