Apache flink ApacheFlink-PartitionNotFoundException_Apache Flink

Apache flink ApacheFlink-PartitionNotFoundException

apache-flink

Apache flink ApacheFlink-PartitionNotFoundException,apache-flink,Apache Flink,我们正在kubernetes和azure上运行一个5节点的flink集群（每个8 gb ram，总共40个插槽）。我们正在运行四个作业，所有作业都使用来自卡夫卡的数据（每个作业位于不同的消费群体）。几天前，随着数据负载的增加，我们将生产商转移到5个kafka分区上生产数据，并将作业并行度提高到5。从那时起，我们的一个任务经理时不时（在avg上每小时）会遇到以下例外情况： NFO|N||-|||Flink-4jc| 2019-01-22 16:00:32,032 Task:917 - org=

我们正在kubernetes和azure上运行一个5节点的flink集群（每个8 gb ram，总共40个插槽）。我们正在运行四个作业，所有作业都使用来自卡夫卡的数据（每个作业位于不同的消费群体）。几天前，随着数据负载的增加，我们将生产商转移到5个kafka分区上生产数据，并将作业并行度提高到5。从那时起，我们的一个任务经理时不时（在avg上每小时）会遇到以下例外情况：

NFO|N||-|||Flink-4jc| 2019-01-22 16:00:32,032 Task:917 - org=[] - Map (2/5) (949a8349e7bdcf3fe3b8f992f52d249c) switched from RUNNING to FAILED.
org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: Partition 86656e59799eb529f24bac704ea06790@b1955e1a072e3b2f9e1f969fea509841 not found.
        at org.apache.flink.runtime.io.network.partition.consumer.RemoteInputChannel.failPartitionRequest(RemoteInputChannel.java:273)
        at org.apache.flink.runtime.io.network.partition.consumer.RemoteInputChannel.retriggerSubpartitionRequest(RemoteInputChannel.java:182)
        at org.apache.flink.runtime.io.network.partition.consumer.SingleInputGate.retriggerPartitionRequest(SingleInputGate.java:400)
        at org.apache.flink.runtime.taskmanager.Task.onPartitionStateUpdate(Task.java:1293)
        at org.apache.flink.runtime.taskmanager.Task.lambda$triggerPartitionProducerStateCheck$1(Task.java:1150)
        at java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
        at java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
        at java.util.concurrent.CompletableFuture$Completion.run(CompletableFuture.java:442)
        at akka.dispatch.TaskInvocation.run(AbstractDispatcher.scala:39)
        at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:415)
        at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
        at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
        at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
        at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)

例外情况发生在不同的任务和不同的作业上。我已经读了以下文章：这给了我一些可能导致异常的提示，但在我的案例中，我仍然无法找出是什么导致了异常（增加超时和网络缓冲区大小没有帮助，我也无法理解为什么jar文件大小很重要）

有人能告诉我如何调查正在发生的事情、我应该打开哪些日志、要更改哪些配置等方面的任何方向吗？如果需要任何其他细节，我很乐意提供

谢谢

可能您节点的网卡已满

您能否与我们共享群集入口点/jobmanager日志？理想情况下是在调试日志级别。这应该被视为注释，而不是答案