Apache flink 初始化Flink作业

Apache flink 初始化Flink作业,apache-flink,flink-streaming,Apache Flink,Flink Streaming,我们正在部署一个新的Flink流处理作业,它的状态(存储)需要用历史数据初始化,并且在状态存储开始处理任何新的应用程序事件之前,该数据应该在状态存储中可用。我们不希望显著地修改Flink作业以同时加载历史数据。 我们考虑编写另一个单独的Flink作业来处理历史数据,更新其状态存储,创建保存点,并使用此保存点初始化主Flink作业中的状态。看起来状态处理器API只适用于数据集API,并且不知道是否有其他解决方案。谢谢。状态处理器API是一个很好的解决方案。它提供了一种保存点连接器,您可以在数据集作

我们正在部署一个新的Flink流处理作业,它的状态(存储)需要用历史数据初始化,并且在状态存储开始处理任何新的应用程序事件之前,该数据应该在状态存储中可用。我们不希望显著地修改Flink作业以同时加载历史数据。
我们考虑编写另一个单独的Flink作业来处理历史数据,更新其状态存储,创建保存点,并使用此保存点初始化主Flink作业中的状态。看起来状态处理器API只适用于数据集API,并且不知道是否有其他解决方案。谢谢。

状态处理器API是一个很好的解决方案。它提供了一种保存点连接器,您可以在数据集作业中使用它来读取/修改/更新数据流作业中使用的保存点。

状态处理器API是一个很好的解决方案。它提供了一种保存点连接器,您可以在数据集作业中使用它来读取/修改/更新您在数据流作业中使用的保存点。

这是一个非常简单的更改(绝对不是“重要的”)来支持作业的
-preload
模式,非历史数据源被空/非终止数据源替换。我通常使用计数器来确定状态何时已完全填充,然后使用保存点停止,然后在不使用
-preload
选项的情况下重新启动。

这是一个非常简单的更改(绝对不是“重要的”),以支持作业的
-preload
模式,非历史数据源被空/非终止数据源替换。我通常使用计数器来确定状态何时已完全填充,然后使用保存点停止,然后在不使用
-preload
选项的情况下重新启动