python程序在没有信息的pbs中被杀死
我正在pbs_torque管理的集群中使用rpy2运行一个简单的Python程序。我的问题是,同一段代码可以完美地工作,而其他时间在没有逻辑原因或错误跟踪的情况下被终止。在程序执行过程中的任意点,执行完成。我得到的唯一输出错误是: 杀死:20:没有这样的过程 我不需要提及,我没有打印那个消息。某些输出错误文件甚至多次包含此消息。我做了一些搜索,但没有找到任何相关的帮助。集群的所有节点都有相同的配置,每个核心运行一个程序实例 欢迎提出建议python程序在没有信息的pbs中被杀死,python,rpy2,qsub,Python,Rpy2,Qsub,我正在pbs_torque管理的集群中使用rpy2运行一个简单的Python程序。我的问题是,同一段代码可以完美地工作,而其他时间在没有逻辑原因或错误跟踪的情况下被终止。在程序执行过程中的任意点,执行完成。我得到的唯一输出错误是: 杀死:20:没有这样的过程 我不需要提及,我没有打印那个消息。某些输出错误文件甚至多次包含此消息。我做了一些搜索,但没有找到任何相关的帮助。集群的所有节点都有相同的配置,每个核心运行一个程序实例 欢迎提出建议 谢谢这个错误消息看起来像是来自于,它说这次没有进程可以终止
谢谢这个错误消息看起来像是来自于,它说这次没有进程可以终止。这对我来说意味着,有时它可能会成功——并扼杀你的工作。我想知道您的集群上是否有某种系统监控进程在运行,在某些情况下会调用kill—内存使用量大、空闲时间长、运行时间长……?。据我所知,没有其他监控系统。我正在运行的程序是计算密集型的,但只需要一小部分内存即可运行。更令人不安的是,我在调度程序的日志中找不到任何相关信息。@Juan:如果希望得到问题的诊断,您需要更具体一点,并向某人显示代码。如果没有这些,这看起来就像是你这边的扭矩问题。你需要从日志中向管理员询问更多信息。