Java 将提取请求(sessionId=1175648978,epoch=189)发送到节点53时出错:org.apache.kafka.common.errors.DisconnectException

Java 将提取请求(sessionId=1175648978,epoch=189)发送到节点53时出错:org.apache.kafka.common.errors.DisconnectException,java,kubernetes,apache-kafka,apache-kafka-streams,Java,Kubernetes,Apache Kafka,Apache Kafka Streams,我们有一个有100个分区的主题,负载是每小时数百万条记录 每当我们使用Kubernetes中有状态集的状态存储部署新版本的流处理器时,就会遇到这个问题 通常,我们需要4个POD来处理100个分区的工作负载 在部署新版本之前, 4个实例是来自主题的最新数据。 在部署新版本时,四分之三的情况下,只有2或3个实例在一分钟内处理数据,其他实例则引发异常: Error sending fetch request (sessionId=1175648978, epoch=189) to node 53:

我们有一个有100个分区的主题,负载是每小时数百万条记录

每当我们使用Kubernetes中有状态集的状态存储部署新版本的流处理器时,就会遇到这个问题

通常,我们需要4个POD来处理100个分区的工作负载

在部署新版本之前, 4个实例是来自主题的最新数据。

在部署新版本时,四分之三的情况下,只有2或3个实例在一分钟内处理数据,其他实例则引发异常:

 Error sending fetch request (sessionId=1175648978, epoch=189) to node 53: org.apache.kafka.common.errors.DisconnectException
因此,分配给实例#4的分区中的所有数据都已建立,并且滞后时间正在增加

如果我们将实例的数量缩放到6或8,那么5或6个实例正在处理数据,其他3或2个实例抛出 此例外情况:

 Error sending fetch request (sessionId=1175648978, epoch=189) to node 53: org.apache.kafka.common.errors.DisconnectException
如果我们让所有的实例都这样运行,最终(一些在4到36个小时之后)所有的实例都会很好,不再有任何pod的异常

任何解决此问题的建议都将不胜感激

谢谢


奥斯汀

冒着说显而易见的风险,听起来你有一些连接问题。您是否可以包括一些代理端日志和涵盖时间段的streams应用程序日志?您是否仍然存在此问题,或者您已经解决了此问题?bbejeck是对的,这是一个连接问题吗?