如何为python多处理函数定义一个输入,以获取目录中的所有文件?

如何为python多处理函数定义一个输入,以获取目录中的所有文件?,python,multiprocessing,Python,Multiprocessing,这个问题听起来很基本,因为我对多重处理不太了解,我只是在学习 我有python代码,它处理目录中的一堆文件 with Pool(processes=cores) as pp: pp.map(function, list) 这是我的密码: path = '/data/personal' print("Running with PID: %d" % getpid()) psl = PublicSuffixList() d = defaultdict(set

这个问题听起来很基本,因为我对多重处理不太了解,我只是在学习

我有python代码,它处理目录中的一堆文件

with Pool(processes=cores) as pp:  
        pp.map(function, list)
这是我的密码:

path = '/data/personal'
print("Running with PID: %d" % getpid())



    psl = PublicSuffixList()
    d = defaultdict(set)
    start = time()

#
     files_list = glob(path)
     for filename in files:
        print(filename)
        f = open(filename, 'r')
        for n, line in enumerate(f):
            line = line[:-1]
            ip,reversed_domain_1= line.split('|')
            reversed_domain_2 = reversed_domain_1.split('.')
            reversed_domain_3 = list(reversed(reversed_domain_2))
            domain = ('.'.join(reversed_domain_3))
            domain = psl.get_public_suffix(domain)
            d[ip].add(domain)

###
    for ip, domains in d.iteritems():
        for domain in domains:
            print(ip,domain)

如何将其转换为在多处理池中完成?

您可以在单独的过程中处理每个文件,如下所示:

from os import getpid
from collections import defaultdict
from glob import glob
from multiprocessing import Pool
from time import time
from functools import partial

path = '/data/personal'
print("Running with PID: %d" % getpid())


def process_file(psl, filename):
    print(filename)
    f = open(filename, 'r')
    for n, line in enumerate(f):
        line = line[:-1]
        ip,reversed_domain_1= line.split('|')
        reversed_domain_2 = reversed_domain_1.split('.')
        reversed_domain_3 = list(reversed(reversed_domain_2))
        domain = ('.'.join(reversed_domain_3))
        domain = psl.get_public_suffix(domain)
        return ip, domain

if __name__ == "__main__":
    psl = PublicSuffixList()
    d = defaultdict(set)
    start = time()
    files_list = glob(path)
    pp = Pool(processes=cores)
    func = partial(process_file, psl)
    results = pp.imap_unordered(func, files_list)
    for ip, domain in results:
       d[ip].add(domain)
    p.close()
    p.join()

    for ip, domains in d.iteritems():
        for domain in domains:
            print(ip,domain)
请注意,
defaultdict
在父进程中填充,因为如果不使用
multiprocessing.Manager
,您实际上无法在多个进程之间共享相同的
defaultdict
。如果你愿意,你可以在这里做,但我认为没有必要。相反,只要任何子级有可用的结果,我们就将其添加到父级中的
defaultdict
。使用
imap\u unordered
而不是
map
使我们能够按需接收结果,而不必等待所有结果就绪。唯一值得注意的是使用
partial
来启用将
psl
列表传递给所有子进程,以及
files\u list
中带有
imap\u无序的项目


这里有一个重要的注意事项:对这种操作使用
多处理
,实际上可能不会提高性能。您在这里所做的很多工作都是从磁盘读取数据,这无法通过多个进程来加快速度;硬盘驱动器一次只能执行一次读取操作。一次从一堆进程获取不同文件的读取请求实际上会降低按顺序执行的速度,因为它可能需要不断切换到物理磁盘的不同区域,以便从每个文件读取新行。现在,您对每条线路所做的CPU限制工作可能非常昂贵,足以支配I/O时间,在这种情况下,您将看到速度提升。

感谢@dano提供的非常完整的答案。我同意你的说法,那可能会更耗时,但我想试一试。当我运行你的代码时,我得到了这个错误?你知道为什么吗?使用Pool(processs=cores)作为pp:AttributeError:“Pool”对象没有属性“exit”,我使用的是python 2。7@user2058811啊,对不起。在Python2.7中,不能将
Pool
用作上下文管理器,它是3.x特性。我已经更新了我的答案。@user2058811我们正在将
文件列表
传递给
池。imap\u无序
,基本上是这样做的:
对于文件列表中的文件名:process\u file(psl,filename)
@user2058811啊,如果每个文件的每个dict都应该是不同的,那就好了。对不起,我误解了你的意思!