Python 多处理队列-内存消耗为什么会增加?
以下脚本生成100个大小为100000的随机字典,将每个(键、值)元组馈送到队列中,同时一个单独的进程从队列中读取:Python 多处理队列-内存消耗为什么会增加?,python,python-2.7,queue,multiprocessing,python-multiprocessing,Python,Python 2.7,Queue,Multiprocessing,Python Multiprocessing,以下脚本生成100个大小为100000的随机字典,将每个(键、值)元组馈送到队列中,同时一个单独的进程从队列中读取: import multiprocessing as mp import numpy.random as nr def get_random_dict(_dummy): return dict((k, v) for k, v in enumerate(nr.randint(pow(10, 9), pow(10, 10), pow(10, 5)))) def cons
import multiprocessing as mp
import numpy.random as nr
def get_random_dict(_dummy):
return dict((k, v) for k, v in enumerate(nr.randint(pow(10, 9), pow(10, 10), pow(10, 5))))
def consumer(q):
for (k, v) in iter(q.get, 'STOP'):
pass
q = mp.Queue()
p = mp.Process(target=consumer, args=(q,))
p.start()
for d in mp.Pool(1).imap_unordered(get_random_dict, xrange(100)):
for k, v in d.iteritems():
q.put((k, v))
q.put('STOP')
p.join()
我希望内存使用量保持不变,因为使用者进程在主进程提供数据时从队列中提取数据。我验证了队列中没有累积数据
但是,我监控了内存消耗,并且随着脚本的运行,内存消耗不断增加。如果我用xrange(100):d=get_random_dict()中的u的替换未排序的,则内存消耗是恒定的。解释是什么?我认为主要问题是使用
多处理.Pool
收集在一个进程(Pool
进程)中创建的词典,然后将它们放在主进程的队列中。我认为(我可能错了)Pool
创建了一些自己的队列,这些队列可能就是数据累积的队列
如果您像这样放置一些调试打印,您可以清楚地看到:
...
def get_random_dict(_dummy):
print 'generating dict'
...
...
for d in mp.Pool(1).imap_unordered(get_random_dict, xrange(100)):
print 'next d'
...
generating dict
generating dict
next d
generating dict
generating dict
generating dict
generating dict
generating dict
next d
...
然后,您将看到如下内容:
...
def get_random_dict(_dummy):
print 'generating dict'
...
...
for d in mp.Pool(1).imap_unordered(get_random_dict, xrange(100)):
print 'next d'
...
generating dict
generating dict
next d
generating dict
generating dict
generating dict
generating dict
generating dict
next d
...
这清楚地表明你已经在某个地方积累了那些生成的dict
s
(可能在池的内部管道中
)
我认为更好的解决办法是将数据从
使用*map
功能直接将\u random\u dict
输入队列并放弃
从
Pool
Pool.imap
与imap
不完全相同。它的相同之处在于它可以像imap
一样使用,并且它返回一个迭代器。然而,实现是完全不同的。无论迭代器的使用速度有多快,支持池都将尽可能努力尽快完成分配给它的所有作业。如果您只希望在请求时处理作业,那么使用多处理
是没有意义的。不妨使用itertools.imap
并完成它
因此,内存消耗增加的原因是池创建字典的速度比用户进程消耗字典的速度快。这是因为池从工作进程检索结果的方式是单向的(一个进程写,一个进程读),因此不需要显式的同步机制。然而,
队列
是双向的——两个进程都可以读写队列。这意味着使用队列的进程之间需要显式同步,以确保它们不会竞争向队列中添加下一个项目或从队列中删除项目(从而使队列处于不一致状态) 也许这可以帮助你在某种程度上非常清楚的解释!我编写了一个模块来限制并发值的数量,这在这种情况下会有所帮助: