在Python中使用多处理模块提高速度

在Python中使用多处理模块提高速度,python,multiprocessing,Python,Multiprocessing,我正在使用这个示例测试Python中的多处理模块。它计算语料库中每个单词的长度 from multiprocessing import Pool def open_file(file): with open(file) as f: f = f.read() return f def split_words(file): f = open_file(file) return [[len(i), i] for i in f.split()] d

我正在使用这个示例测试Python中的多处理模块。它计算语料库中每个单词的长度

from multiprocessing import Pool

def open_file(file):
    with open(file) as f:
        f = f.read()
    return f

def split_words(file):
    f = open_file(file)
    return [[len(i), i] for i in f.split()]


def split_mult(file):
    #uses the multiprocessing module
    pool = Pool(processes = 4)  
    work = pool.apply_async(split_words, [file])
    return work.get()

print split_words("random.txt") - about 90seconds for a 110K file
print split_mult("random.txt") - about 90seconds for a 110K file
*split_mult*函数使用多处理,而*split_words*不使用。我的印象是,使用多处理模块可以加快处理时间,但在运行时几乎没有差别。每个函数我都运行了大约5次。有什么我遗漏的吗

更新:


我重新编写了代码,更好地理解了多重处理,并且能够将处理时间缩短到~12秒!这是一段快速而肮脏的代码,但希望对其他试图理解这一概念的人有所帮助-

Python没有神奇地使代码并行工作的工具

您在这里所做的是创建一个由4个进程组成的池,并为其分配一个任务,该任务将在1个进程中运行

进程/线程池用于并行运行大量任务(一次最多4个或您指定的任何任务)。

将一个任务拆分为多个子任务是程序员的责任。

Python没有神奇地使代码并行工作的功能

您在这里所做的是创建一个由4个进程组成的池,并为其分配一个任务,该任务将在1个进程中运行

进程/线程池用于并行运行大量任务(一次最多4个或您指定的任何任务)。

将任务拆分为多个子任务是程序员的责任。

I/O密集型任务可以通过使它们更并行来降低速度。机械硬盘驱动器尤其如此

假设您能够将文件分为4个部分,并运行4个进程,它们将导致驱动器查找的不仅仅是按顺序读取文件一次

如果在4个文件上有4个工作进程,则会出现相同的情况,但不必考虑如何分割文件


如果
len
是一个耗时的操作,您可以通过逐行顺序读取文件并让工作人员从
队列中提取这些行来提高性能。但是,除非您有非常快的存储(可能是缓存文件),否则不会有太大的区别。

I/O密集型任务可以通过使它们更并行来降低速度。机械硬盘驱动器尤其如此

假设您能够将文件分为4个部分,并运行4个进程,它们将导致驱动器查找的不仅仅是按顺序读取文件一次

如果在4个文件上有4个工作进程,则会出现相同的情况,但不必考虑如何分割文件


如果
len
是一个耗时的操作,您可以通过逐行顺序读取文件并让工作人员从
队列中提取这些行来提高性能。但是,除非您有非常快速的存储(可能是缓存的文件),否则不会有太大区别。

这是您的全部代码,我看不到多处理有任何好处。IPython有更多的功能来执行高级并行化-checkout@dav1d是的,这是我的全部代码。我想我误解了模块的用途:-/是您的全部代码,我看不到任何有利于多处理的东西。IPython有更多的功能来进行高级并行化-checkout@dav1d是的,这是我的全部代码。我想我误解了模块的目的:-/你是对的,我似乎误解了模块的目的。因此,有效地说,如果我给split_mult几个文本文件进行处理,它将以比单独给split_word函数更快的速度并行处理它们,即在并行工作中拆分4个字符串。并行拆分一个字符串(就像在代码中一样)不会。Python不会神奇地使非并行函数并行(在本例中是拆分的)。你是对的,我似乎误解了模块的用途。因此,有效地说,如果我给split_mult几个文本文件进行处理,它将以比单独给split_word函数更快的速度并行处理它们,即在并行工作中拆分4个字符串。并行拆分一个字符串(就像在代码中一样)不会。Python不会神奇地使非并行函数并行(在本例中为拆分)。