Apache flink apacheflink中的存储_Apache Flink

Apache flink apacheflink中的存储

apache-flink

Apache flink apacheflink中的存储,apache-flink,Apache Flink,在处理了数以百万计的事件/数据之后，哪里是存储信息的最佳位置，可以说保存数以百万计的事件是值得的？我看到一个封闭的拼花格式，但是，默认的是HDFS？我关心的是保存后（在哪里？）是否容易（快速！）检索到该数据？Apache Flink没有与特定的存储引擎或格式耦合。存储Flink计算结果的最佳位置取决于您的用例您正在运行批处理作业还是流式作业你想对结果做什么您是否需要对数据进行批量（完全扫描）、点式或连续流式访问数据的格式是什么？平面结构（关系）、嵌套、blob等根据这些问题的答案，

在处理了数以百万计的事件/数据之后，哪里是存储信息的最佳位置，可以说保存数以百万计的事件是值得的？我看到一个封闭的拼花格式，但是，默认的是HDFS？我关心的是保存后（在哪里？）是否容易（快速！）检索到该数据？

Apache Flink没有与特定的存储引擎或格式耦合。存储Flink计算结果的最佳位置取决于您的用例

您正在运行批处理作业还是流式作业
你想对结果做什么
您是否需要对数据进行批量（完全扫描）、点式或连续流式访问
数据的格式是什么？平面结构（关系）、嵌套、blob等

根据这些问题的答案，您可以从各种存储后端中进行选择，例如 -用于批量访问的Apache HDFS（具有不同的存储格式，如拼花地板、ORC、自定义二进制文件） -如果要以流的形式访问数据，请使用ApacheKafka -用于数据点访问的键值存储，如ApacheHBase和ApacheCassandra -如MongoDB、MySQL等数据库

Flink为这些系统中的大多数提供OutputFormats（有些通过Hadoop OutputFormats的包装）。“最佳”系统取决于您的用例

Hello@FabianHueske非常感谢你的回复，你知道有一篇博客文章[或多或少像这篇]（）对存储选项进行了比较吗？一些信息显示了您对上述不同选项的见解？再次感谢！对不起，我不知道这样的博客帖子。但是，存储决策独立于处理系统，并适用于与Flink类似的其他系统，如Apache Hadoop、Apache Spark、Apache Storm等。这个话题应该有一些东西。好吧：（非常感谢Fabian！我会尝试找到一些东西，当然有人做了一个有不同选择的基准：）