Python';s线程卡在Popen.com中

Python';s线程卡在Popen.com中,python,multithreading,process,Python,Multithreading,Process,我有一个使用线程的Python应用程序,如下所示: 创建任务队列(队列模块) 创建10个线程并向每个线程传递一个队列对象 将任务放入队列(总共约8500个任务) 每个线程: 接受任务并使用Popen.communicate()运行一些Linux命令 互斥锁、关键部分、队列管理——我的线程池库已经在两个较小的项目中进行了测试,所以没有理由认为那里的东西被破坏了 当我有多达几千个任务时,一切都很好,但是当我有更多任务时(在本例中超过8500个),一些线程挂起。gdb显示它们被困在python的s

我有一个使用线程的Python应用程序,如下所示:

  • 创建任务队列(队列模块)
  • 创建10个线程并向每个线程传递一个队列对象
  • 将任务放入队列(总共约8500个任务)
  • 每个线程:
    • 接受任务并使用Popen.communicate()运行一些Linux命令
  • 互斥锁、关键部分、队列管理——我的线程池库已经在两个较小的项目中进行了测试,所以没有理由认为那里的东西被破坏了

    当我有多达几千个任务时,一切都很好,但是当我有更多任务时(在本例中超过8500个),一些线程挂起。gdb显示它们被困在python的subprocess.py中,在_executechild(第1131行)->表示调用了os.fork()之后

    gdb:

     (gdb) pystack
     /opt/python/current/lib/python2.7/subprocess.py (1131): _execute_child
     /opt/python/current/lib/python2.7/subprocess.py (681): __init__
     /home/olibsup/tools/chelo/checks/checkUtils/osutils/cmdutils.py (115): shcmd
     /home/olibsup/tools/chelo/checks/liblist/libWorkers.py (204): workerFunction
     /home/olibsup/tools/chelo/checks/checkUtils/pools/thpool.py (160): run
     /opt/python/current/lib/python2.7/threading.py (160): __bootstrap_inner
     /opt/python/current/lib/python2.7/threading.py (553): __bootstrap
    
    我的ulimit显示:

    core file size          (blocks, -c) unlimited
    data seg size           (kbytes, -d) unlimited
    file size               (blocks, -f) unlimited
    pending signals                 (-i) 139264
    max locked memory       (kbytes, -l) 32
    max memory size         (kbytes, -m) unlimited
    open files                      (-n) 1024
    pipe size            (512 bytes, -p) 8
    POSIX message queues     (bytes, -q) 819200
    stack size              (kbytes, -s) 8192
    cpu time               (seconds, -t) unlimited
    max user processes              (-u) 139264
    virtual memory          (kbytes, -v) unlimited
    file locks                      (-x) unlimited
    
    “top”也没有任何可疑之处(至少对我来说不是):

    你知道为什么挂在那里吗?
    并非所有线程都挂起,一些(10个中的5个)已正确完成(当没有更多任务可用时)

    谢谢你的帮助,

    Zbigniew

    subprocess.py的第1131/1132行,通过
    os.dup
    复制文件描述符

    因此,我怀疑您的操作系统限制了应用程序可用的子进程和/或文件描述符的数量。但是,我不明白为什么os.dup在这种情况下不引发/抛出异常


    尝试找出您的操作系统的限制,并保持在该限制以下。对于基于UNIX的系统,您可能可以使用Python的资源模块(尽管我自己从未使用过):

    在第1131/1132行的subprocess.py中,通过
    os.dup
    复制文件描述符

    因此,我怀疑您的操作系统限制了应用程序可用的子进程和/或文件描述符的数量。但是,我不明白为什么os.dup在这种情况下不引发/抛出异常

    尝试找出您的操作系统的限制,并保持在该限制以下。对于基于UNIX的系统,您可能可以使用Python的资源模块(尽管我自己从未使用过它):

    Cpu(s):  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
    Mem:  16438200k total, 15705272k used,   732928k free,   751640k buffers
    Swap:  3148700k total,       44k used,  3148656k free, 11692300k cached