Java Tomcat停止响应JK请求

Java Tomcat停止响应JK请求,java,tomcat,tomcat6,mod-jk,Java,Tomcat,Tomcat6,Mod Jk,我对挂断的负载平衡Tomcat服务器有一个棘手的问题。任何帮助都将不胜感激 系统 我在HotSpot服务器14.3-b01(Java 1.6.0_17-b04)上运行Tomcat 6.0.26,该服务器位于另一台充当负载平衡器的服务器后面的三台服务器上。负载平衡器运行Apache(2.2.8-1)+MOD_JK(1.2.25)。所有服务器都运行Ubuntu 8.04 Tomcat配置了2个连接器:AJP连接器和HTTP连接器。AJP将与负载平衡器一起使用,而HTTP则由开发团队用于直接连接到所选

我对挂断的负载平衡Tomcat服务器有一个棘手的问题。任何帮助都将不胜感激

系统 我在HotSpot服务器14.3-b01(Java 1.6.0_17-b04)上运行Tomcat 6.0.26,该服务器位于另一台充当负载平衡器的服务器后面的三台服务器上。负载平衡器运行Apache(2.2.8-1)+MOD_JK(1.2.25)。所有服务器都运行Ubuntu 8.04

Tomcat配置了2个连接器:AJP连接器和HTTP连接器。AJP将与负载平衡器一起使用,而HTTP则由开发团队用于直接连接到所选服务器(如果我们有理由这样做的话)

我在Tomcat服务器上安装了Lambda Probe 1.7b,以帮助我诊断和修复即将描述的问题

问题 问题是:在应用服务器启动大约1天后,JK Status Manager开始报告Tomcat2的状态
ERR
。它只会停留在这种状态,到目前为止,我找到的唯一修复方法是使用ssh连接该框并重新启动Tomcat

我还必须提到,当Tomcat服务器处于这种状态时,JK状态管理器需要更长的时间来刷新

最后,JK状态管理器上被卡住的Tomcat的“忙碌”计数总是很高,而且本身不会下降——我必须重新启动Tomcat服务器,等待,然后重置JK上的工作进程

分析 因为我在每个Tomcat上有2个连接器(AJP和HTTP),所以我仍然可以通过HTTP连接器连接到应用程序。应用程序就像这样工作,非常非常快。这是完全正常的,因为我是唯一使用这个服务器的人(因为JK停止将请求委托给这个Tomcat)

为了更好地理解这个问题,我从一个不再响应的Tomcat和另一个最近重新启动的Tomcat(比如1小时前)中获取了一个线程转储

正常响应JK的实例显示大多数TP ProcessorXXX线程处于“可运行”状态,堆栈跟踪如下:

java.net.SocketInputStream.socketRead0 ( native code )
java.net.SocketInputStream.read ( SocketInputStream.java:129 )
java.io.BufferedInputStream.fill ( BufferedInputStream.java:218 )
java.io.BufferedInputStream.read1 ( BufferedInputStream.java:258 )
java.io.BufferedInputStream.read ( BufferedInputStream.java:317 )
org.apache.jk.common.ChannelSocket.read ( ChannelSocket.java:621 )
org.apache.jk.common.ChannelSocket.receive ( ChannelSocket.java:559 )
org.apache.jk.common.ChannelSocket.processConnection ( ChannelSocket.java:686 )
org.apache.jk.common.ChannelSocket$SocketConnection.runIt ( ChannelSocket.java:891 )
org.apache.tomcat.util.threads.ThreadPool$ControlRunnable.run ( ThreadPool.java:690 )
java.lang.Thread.run ( Thread.java:619 )
java.lang.Object.wait ( native code )
java.lang.Object.wait ( Object.java:485 )
org.apache.tomcat.util.threads.ThreadPool$ControlRunnable.run ( ThreadPool.java:662 )
java.lang.Thread.run ( Thread.java:619 ) 
被卡住的实例显示大多数(所有?)TP ProcessorXXX线程处于“等待”状态。它们具有以下堆栈跟踪:

java.net.SocketInputStream.socketRead0 ( native code )
java.net.SocketInputStream.read ( SocketInputStream.java:129 )
java.io.BufferedInputStream.fill ( BufferedInputStream.java:218 )
java.io.BufferedInputStream.read1 ( BufferedInputStream.java:258 )
java.io.BufferedInputStream.read ( BufferedInputStream.java:317 )
org.apache.jk.common.ChannelSocket.read ( ChannelSocket.java:621 )
org.apache.jk.common.ChannelSocket.receive ( ChannelSocket.java:559 )
org.apache.jk.common.ChannelSocket.processConnection ( ChannelSocket.java:686 )
org.apache.jk.common.ChannelSocket$SocketConnection.runIt ( ChannelSocket.java:891 )
org.apache.tomcat.util.threads.ThreadPool$ControlRunnable.run ( ThreadPool.java:690 )
java.lang.Thread.run ( Thread.java:619 )
java.lang.Object.wait ( native code )
java.lang.Object.wait ( Object.java:485 )
org.apache.tomcat.util.threads.ThreadPool$ControlRunnable.run ( ThreadPool.java:662 )
java.lang.Thread.run ( Thread.java:619 ) 
我不知道Tomcat的内部结构,但我可以推断“等待”线程只是位于线程池中的线程。所以,如果它们是在线程池中等待的线程,为什么Tomcat不让它们处理来自JK的请求呢

EDIT:我不知道这是否正常,但Lambda Probe在状态部分向我显示,有许多线程处于
KeepAlive
状态。这是否与我遇到的问题有关

解决方案 因此,正如我之前所说的,我找到的唯一修复方法是停止Tomcat实例,停止JK工作程序,等待后者的繁忙计数慢慢下降,再次启动Tomcat,并再次启用JK工作程序

是什么导致了这个问题?我应该如何进一步调查呢?我能做些什么来解决它


提前感谢。

首先检查您的日志文件


我认为默认日志文件位于/var/log/daemon.log中。(此文件不仅包含来自tomcat的日志)

检查您的保留时间设置。看起来您正在使线程进入keepalive状态,并且它们不会超时。您的服务器似乎没有在合理的时间内检测到客户端断开连接。涉及到几个超时和计数变量

您是否配置了JVM内存设置和垃圾收集?您可以在设置CATALINA_选项的位置执行此操作

示例:

CATALINA_OPTS="$CATALINA_OPTS -server -Xnoclassgc -Djava.awt.headless=true"
CATALINA_OPTS="$CATALINA_OPTS -Xms1024M -Xmx5120M -XX:MaxPermSize=256m"
CATALINA_OPTS="$CATALINA_OPTS -XX:-UseParallelGC"
CATALINA_OPTS="$CATALINA_OPTS -Xnoclassgc"

GC设置的最佳原则有多种。这取决于您正在执行的代码类型。上面的配置最适合JSP密集型环境(taglibs而不是MVC框架)。

我在Weblogic中也遇到过类似的问题。原因是太多线程等待网络响应,而Weblogic内存不足。Tomcat可能也有同样的行为。您可以尝试以下几点:

  • 减少连接的超时值
  • 减少同时连接的总量,以便tomcat在达到该数量时不会启动新线程
  • 很容易修复,但无法纠正根本原因:可能是tomcat处于内存不足状态,即使它尚未显示在日志中。如前所述,增加tomcat的内存

我的配置示例中缺少换行符。它不知怎么被表单提交删除了。(在UseParallelGC之后)通过生成整个块“代码”为您修复了换行符-您可以通过选择文本并单击“1010”按钮或缩进4个空格来完成。