Apache flink ApacheFlink-PartitionNotFoundException

Apache flink ApacheFlink-PartitionNotFoundException,apache-flink,Apache Flink,我们正在kubernetes和azure上运行一个5节点的flink集群(每个8 gb ram,总共40个插槽)。我们正在运行四个作业,所有作业都使用来自卡夫卡的数据(每个作业位于不同的消费群体)。 几天前,随着数据负载的增加,我们将生产商转移到5个kafka分区上生产数据,并将作业并行度提高到5。 从那时起,我们的一个任务经理时不时(在avg上每小时)会遇到以下例外情况: NFO|N||-|||Flink-4jc| 2019-01-22 16:00:32,032 Task:917 - org=

我们正在kubernetes和azure上运行一个5节点的flink集群(每个8 gb ram,总共40个插槽)。我们正在运行四个作业,所有作业都使用来自卡夫卡的数据(每个作业位于不同的消费群体)。 几天前,随着数据负载的增加,我们将生产商转移到5个kafka分区上生产数据,并将作业并行度提高到5。 从那时起,我们的一个任务经理时不时(在avg上每小时)会遇到以下例外情况:

NFO|N||-|||Flink-4jc| 2019-01-22 16:00:32,032 Task:917 - org=[] - Map (2/5) (949a8349e7bdcf3fe3b8f992f52d249c) switched from RUNNING to FAILED.
org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: Partition 86656e59799eb529f24bac704ea06790@b1955e1a072e3b2f9e1f969fea509841 not found.
        at org.apache.flink.runtime.io.network.partition.consumer.RemoteInputChannel.failPartitionRequest(RemoteInputChannel.java:273)
        at org.apache.flink.runtime.io.network.partition.consumer.RemoteInputChannel.retriggerSubpartitionRequest(RemoteInputChannel.java:182)
        at org.apache.flink.runtime.io.network.partition.consumer.SingleInputGate.retriggerPartitionRequest(SingleInputGate.java:400)
        at org.apache.flink.runtime.taskmanager.Task.onPartitionStateUpdate(Task.java:1293)
        at org.apache.flink.runtime.taskmanager.Task.lambda$triggerPartitionProducerStateCheck$1(Task.java:1150)
        at java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
        at java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
        at java.util.concurrent.CompletableFuture$Completion.run(CompletableFuture.java:442)
        at akka.dispatch.TaskInvocation.run(AbstractDispatcher.scala:39)
        at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:415)
        at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
        at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
        at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
        at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
例外情况发生在不同的任务和不同的作业上。 我已经读了以下文章: 这给了我一些可能导致异常的提示,但在我的案例中,我仍然无法找出是什么导致了异常(增加超时和网络缓冲区大小没有帮助,我也无法理解为什么jar文件大小很重要)

有人能告诉我如何调查正在发生的事情、我应该打开哪些日志、要更改哪些配置等方面的任何方向吗? 如果需要任何其他细节,我很乐意提供


谢谢

可能您节点的网卡已满

您能否与我们共享群集入口点/jobmanager日志?理想情况下是在调试日志级别。这应该被视为注释,而不是答案