Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python多处理应用异步不可pickle?_Python_Python 3.x_Pickle_Python Multiprocessing_Pool - Fatal编程技术网

Python多处理应用异步不可pickle?

Python多处理应用异步不可pickle?,python,python-3.x,pickle,python-multiprocessing,pool,Python,Python 3.x,Pickle,Python Multiprocessing,Pool,我正在计算大量函数(大约1000000个),因为这非常耗时,所以我使用multiprocessing.Pool.apply_async函数。但是,当我尝试使用AsyncResult类的.get()函数读取结果时,出现了一个错误: File "Test.py", line 17, in <module> Test() File "Test.py", line 11, in __init__ self.testList[i].get(5) File "/Libra

我正在计算大量函数(大约1000000个),因为这非常耗时,所以我使用multiprocessing.Pool.apply_async函数。但是,当我尝试使用AsyncResult类的.get()函数读取结果时,出现了一个错误:

File "Test.py", line 17, in <module>
    Test()
  File "Test.py", line 11, in __init__
    self.testList[i].get(5)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/pool.py", line 657, in get
    raise self._value
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/pool.py", line 431, in _handle_tasks
    put(task)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/connection.py", line 206, in send
    self._send_bytes(_ForkingPickler.dumps(obj))
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/reduction.py", line 51, in dumps
    cls(buf, protocol).dump(obj)
TypeError: can't pickle _thread.lock objects
有趣的是,如果我改为使用self.testList,代码就可以正常工作。但是,当我使用.ready()而不是.get()比较两者时,我发现self.testList比testList快约1000倍(这是我无法解释的)。所以,我真的很想找到一种使用self.testList的方法

我一直在四处搜索,虽然还有其他关于这方面的线程,但它们似乎更关注队列,而不是应用异步。任何帮助都将不胜感激

谢谢大家!

编辑:最初的问题似乎是因为我在类中调用了mp.Pool。当我在类外创建同一个进程时,程序会运行,但与类中的代码相比,速度非常慢(慢30倍)(我使用.ready()函数对此进行了测试,该函数在这两种情况下都能正常工作)。下面是一个简单的例子:

import multiprocessing as mp
import numpy as np
import time

class Test:
    def __init__(self):
        pool = mp.Pool(processes = 4)
        self.testList = [0 for i in range(0,100000)]
        for i in range(0,len(self.testList)):
            self.testList[i] = pool.apply_async(self.run, (1,))
        for i in range(0,len(self.testList)):
            while not self.testList[i].ready():
                continue

    def run(self, i):
        return 1

def functionTest():
    pool = mp.Pool(processes = 4)
    testList = [0 for i in range(0,100000)]
    for i in range(0,len(testList)):
        testList[i] = pool.apply_async(run, (1,))
    for i in range(0,len(testList)):
        while not testList[i].ready():
            continue

def run(i):
    return 1


startTime1 = time.time()
Test()
startTime2 = time.time()
print(startTime2-startTime1)



startTime1 = time.time()
functionTest()
startTime2 = time.time()
print(startTime2-startTime1)
此测试的输出为

5.861901044845581
151.7218940258026

我试图寻找让类方法发挥作用的方法,比如从init函数中取出多处理,或者向类提供pool对象,而不是让类创建它。不幸的是,这两种方法都不起作用。我真的很想找到一种有效且仍然快速的方法。谢谢你的帮助

当您生成多个线程时,您正试图pickle整个类,其中包含init中设置的
mp.Pool
中的值。复制
mp.Pool
两者都不起作用,在这里也没有意义。将类拆分为两个独立的顶级函数,或者至少将多处理内容移到测试类之外的自己的函数中。

当您生成多个线程时,您试图对整个类进行pickle处理,其中包含
mp.Pool
init中设置的值。复制
mp.Pool
两者都不起作用,在这里也没有意义。将您的类拆分为两个独立的顶级函数,或者至少将多处理内容移到测试类之外的自己的函数中。

当我搜索到确切的错误时,会对StackOverflow产生各种影响。你试过这些解决方案吗?此外,您还必须提供一个。不幸的是,大多数其他线程都集中在队列上,而不是apply_async。感谢您提醒我确保我的示例是最小的和完整的——因此,我设法缩小了错误的来源。:)我已经编辑了这个问题,以包含一个最小的可重复的例子。当我搜索这个确切的错误时,在StackOverflow上有各种各样的点击。你试过这些解决方案吗?此外,您还必须提供一个。不幸的是,大多数其他线程都集中在队列上,而不是apply_async。感谢您提醒我确保我的示例是最小的和完整的——因此,我设法缩小了错误的来源。:)我已经编辑了这个问题,以包含一个最小的可复制示例。谢谢!不幸的是,在一个类之外运行这个程序似乎会将程序的速度降低30倍。不幸的是,该示例太长,无法放入此评论中,因此我将编辑我的初始帖子。你对为什么会发生这种情况或如何解决它有什么建议吗?试着将工作分成4或16个块,而不是100000个块。对async_的调用基本上减少了。在内核之间移动数据的开销相当高,因此我首先要解决的是,这样做的开销是需要的25000倍。编写一个运行函数,例如,在一个async_apply调用中运行25000次run函数迭代。好的,我试试看。这似乎可以完全消除使用池的需要,对吗?我可以手动创建4个流程吗?非常感谢。非常感谢。不幸的是,在一个类之外运行这个程序似乎会将程序的速度降低30倍。不幸的是,该示例太长,无法放入此评论中,因此我将编辑我的初始帖子。你对为什么会发生这种情况或如何解决它有什么建议吗?试着将工作分成4或16个块,而不是100000个块。对async_的调用基本上减少了。在内核之间移动数据的开销相当高,因此我首先要解决的是,这样做的开销是需要的25000倍。编写一个运行函数,例如,在一个async_apply调用中运行25000次run函数迭代。好的,我试试看。这似乎可以完全消除使用池的需要,对吗?我可以手动创建4个流程吗?非常感谢。
5.861901044845581
151.7218940258026