Kubernetes Taskmanager死机/丢失时运行Flink作业

Kubernetes Taskmanager死机/丢失时运行Flink作业,kubernetes,scaling,apache-flink,Kubernetes,Scaling,Apache Flink,我想要实现的是Flink集群,当出现资源中断时,它将自动重新分配以运行作业,例如:Kubernetes pod缩小,现有taskmanager丢失 我用弗林克星系团进行了测试: 一个Jobmanager,两个taskmanager(每个任务槽两个) 重新启动策略修复DelayRestart(2000年2月2日) 检查点和状态配置为HDFS 作业以4并行方式开始,它利用了所有可用插槽 该集群稍后将运行在Kubernetes之上,并通过自动缩放进行管理 情景: 当我杀死其中一个taskmanag

我想要实现的是Flink集群,当出现资源中断时,它将自动重新分配以运行作业,例如:Kubernetes pod缩小,现有taskmanager丢失

我用弗林克星系团进行了测试:

  • 一个Jobmanager,两个taskmanager(每个任务槽两个)
  • 重新启动策略修复DelayRestart(2000年2月2日)
  • 检查点和状态配置为HDFS
  • 作业以4并行方式开始,它利用了所有可用插槽
  • 该集群稍后将运行在Kubernetes之上,并通过自动缩放进行管理
情景: 当我杀死其中一个taskmanager时,Flink群集将以1个JM和1个TM运行,然后作业将重新启动,并最终失败,因为它将以以前的状态(4并行性)启动,并抱怨Flink群集的资源不可用

有没有办法通过动态重新分配可用资源而不是使用以前的状态来重新启动作业

如果有人能在这上面遮光,我将不胜感激