在集群(SGE)上运行的KNIME中的Java SIGSEGV

在集群(SGE)上运行的KNIME中的Java SIGSEGV,java,cluster-computing,knime,Java,Cluster Computing,Knime,我正在尝试使用qsub在Scientific Linux集群(带有Sun Grid Engine)上运行KNIME 2.11.3软件,要求4GB内存 使用的Java: java version "1.8.0_73" Java(TM) SE Runtime Environment (build 1.8.0_73-b02) Java HotSpot(TM) 64-Bit Server VM (build 25.73-b02, mixed mode) 问题是: KNIME软件正确启动工作流,但(可能

我正在尝试使用qsub在Scientific Linux集群(带有Sun Grid Engine)上运行KNIME 2.11.3软件,要求4GB内存

使用的Java:

java version "1.8.0_73"
Java(TM) SE Runtime Environment (build 1.8.0_73-b02)
Java HotSpot(TM) 64-Bit Server VM (build 25.73-b02, mixed mode)
问题是: KNIME软件正确启动工作流,但(可能)在加载Weka机器学习节点时,软件崩溃。我得到的错误信息如下:

    #
    # A fatal error has been detected by the Java Runtime Environment:
    #
    #  SIGSEGV (0xb) at pc=0x00002b2774bf2c4c, pid=115080, tid=47451179185920
    #
    # JRE version: Java(TM) SE Runtime Environment (7.0_60-b19) (build 1.7.0_60-b19)
    # Java VM: Java HotSpot(TM) 64-Bit Server VM (24.60-b09 mixed mode linux-amd64 compressed oops)
    # Problematic frame:
    # C  [libc.so.6+0x7fc4c]  cfree+0x1c
会发生什么?(这是日志)

在主节点上时:

core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 256023
max locked memory       (kbytes, -l) unlimited
max memory size         (kbytes, -m) unlimited
open files                      (-n) 1024
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 524288
cpu time               (seconds, -t) 600
max user processes              (-u) 200
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited
它们之间在$LD_LIBRARY_路径方面也存在差异,即主节点在此处有一个附加条目:/exports/applications//gridengine/2011.11p1_155/lib/linux-x64

最终编辑,找到答案:


答案是要求集群提供更多的RAM,我在执行qsub时使用“-l h_vmem=8G”要求最小8GB的RAM。这很尴尬,因为同样的工作流程在我的4GB内存的旧笔记本电脑上正常工作,但在其他地方却产生了如此严重的错误。这也可能是我们的本地群集配置相关错误

可能的JVM错误。你能上传完整的日志吗?我上传了日志文件。我在主节点上将Java更改为1.7.0_60,但问题仍然存在。您能在发生崩溃的机器上手动运行Java程序吗?看起来有些依赖项不正确。请在问题中添加计算机详细信息(操作系统、修补程序级别)。由于新Java出现异常,您可以向Oracle提交缺陷。日志和原始问题中的崩溃原因不同。我自由地打扫了一下。请检查并提供正确的信息。祝你一切顺利。我更正了我的帖子并添加了正确的日志错误。我尝试通过qlogin登录到一个节点上运行该软件。这次跑步很成功。似乎只有通过qsub将作业发送到节点时才会出现问题。
core file size          (blocks, -c) unlimited
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 256023
max locked memory       (kbytes, -l) unlimited
max memory size         (kbytes, -m) unlimited
open files                      (-n) 1024
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) unlimited
cpu time               (seconds, -t) unlimited
max user processes              (-u) 4096
virtual memory          (kbytes, -v) 1048576
file locks                      (-x) unlimited
core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 256023
max locked memory       (kbytes, -l) unlimited
max memory size         (kbytes, -m) unlimited
open files                      (-n) 1024
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 524288
cpu time               (seconds, -t) 600
max user processes              (-u) 200
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited