使用依赖项序列化python函数
我尝试了多种方法来pickle带有依赖项的python函数,遵循了许多关于StackOverflow的建议(如dill、cloudpickle等),但似乎都遇到了一个我无法理解的基本问题 我有一个主模块,它尝试从导入的模块中pickle一个函数,通过ssh将其发送到远程机器上,以便取消pickle并执行 因此,梅因:使用依赖项序列化python函数,python,pickle,dill,Python,Pickle,Dill,我尝试了多种方法来pickle带有依赖项的python函数,遵循了许多关于StackOverflow的建议(如dill、cloudpickle等),但似乎都遇到了一个我无法理解的基本问题 我有一个主模块,它尝试从导入的模块中pickle一个函数,通过ssh将其发送到远程机器上,以便取消pickle并执行 因此,梅因: import dill (for example) import modulea serial=dill.dumps( modulea.func )
import dill (for example)
import modulea
serial=dill.dumps( modulea.func )
send (serial)
在远程计算机上:
import dill
receive serial
funcremote = dill.loads( serial )
funcremote()
如果正在pickle和sent的函数是main本身定义的顶级函数,那么一切都正常。当它们位于导入的模块中时,加载功能将失败,并显示类型为“module modulea not found”的消息
模块名似乎与函数名一起被pickle。我看不到任何方法可以“修复”pickle以删除依赖项,或者在接收方中创建一个虚拟模块以成为取消pickle的接收方
任何指点都将不胜感激
--普拉桑纳我是迪尔的作者。我通过
ssh
完成了这件事,但取得了成功。目前,dill
和任何其他序列化程序通过引用对模块进行pickle…因此,要成功传递文件中定义的函数,必须确保相关模块也安装在其他计算机上。我不相信有任何对象序列化程序可以直接序列化模块(即不通过引用)
话虽如此,dill
确实有一些序列化对象依赖项的选项。例如,对于类实例,dill
中的默认值是不通过引用序列化类实例…因此类定义也可以序列化并与实例一起发送。在dill中,您还可以(使用一个非常新的特性)通过序列化文件来序列化文件句柄,而不是通过引用进行序列化。但同样,如果您在模块中定义了函数,那么您就不走运了,因为模块是通过引用进行序列化的
但是,您可能可以使用dill
来实现这一点,只是不需要酸洗对象,而需要提取源代码并发送源代码。在pathos.pp
和pyina
中,dill
us用于提取任何对象(包括函数)的源文件和依赖文件,并将其传递给另一台计算机/进程等。然而,由于这不是一件容易的事情,dill
还可以使用尝试提取相关导入并发送该导入而不是源代码的故障转移
希望您能够理解,这是一件很麻烦的事情(正如我在下面提取的函数的一个依赖项中所指出的)。但是,您所要求的是在pathos
包中成功完成的,以便跨ssh隧道端口将代码和依赖项传递给不同的机器
>>> import dill
>>>
>>> print dill.source.importable(dill.source.importable)
from dill.source import importable
>>> print dill.source.importable(dill.source.importable, source=True)
def _closuredsource(func, alias=''):
"""get source code for closured objects; return a dict of 'name'
and 'code blocks'"""
#FIXME: this entire function is a messy messy HACK
# - pollutes global namespace
# - fails if name of freevars are reused
# - can unnecessarily duplicate function code
from dill.detect import freevars
free_vars = freevars(func)
func_vars = {}
# split into 'funcs' and 'non-funcs'
for name,obj in list(free_vars.items()):
if not isfunction(obj):
# get source for 'non-funcs'
free_vars[name] = getsource(obj, force=True, alias=name)
continue
# get source for 'funcs'
#…snip… …snip… …snip… …snip… …snip…
# get source code of objects referred to by obj in global scope
from dill.detect import globalvars
obj = globalvars(obj) #XXX: don't worry about alias?
obj = list(getsource(_obj,name,force=True) for (name,_obj) in obj.items())
obj = '\n'.join(obj) if obj else ''
# combine all referred-to source (global then enclosing)
if not obj: return src
if not src: return obj
return obj + src
except:
if tried_import: raise
tried_source = True
source = not source
# should never get here
return
我想也可以围绕dill.detect.parents
方法构建一些东西,该方法为任何给定对象提供指向所有父对象的指针列表…并且可以将任何函数的所有依赖项重建为对象…但这没有实现
顺便说一句:要建立ssh隧道,只需执行以下操作:
>>> t = pathos.Tunnel.Tunnel()
>>> t.connect('login.university.edu')
39322
>>> t
Tunnel('-q -N -L39322:login.university.edu:45075 login.university.edu')
然后,您可以使用
ZMQ
或ssh
或其他工具跨本地端口工作。如果要使用ssh
,pathos
也内置了该功能。在取消勾选时替换函数的模块名是一件容易的事情。在序列化过程中,您可以用\uuuuu main\uuuuuu
替换任何\uuuu name\uuuuuuuu
,瞧……它应该可以工作……也就是说,除非函数在封闭模块中有任何依赖项。问题是dill.loads失败了——它永远不会松开。正如您在下面的帖子中正确指出的,因为上面的示例不可用,所以负载会消失。因此,在事实发生后重命名它没有帮助。我不是说在事实发生后重命名它,我是说在加载时用自定义pickler替换属性。这会像上面详述的那样有效。是的,我从昨天起就一直在玩这个。尝试更简单的方法——我的模块相当干净,因为我感兴趣的每个函数只使用模块中一小手实用函数中的一两个。因此,我可以先dill/pickle并发送每个实用程序函数,然后只发送我希望在该上下文中执行的函数。顺便说一句,我将查看pathos隧道。我现在正在使用execnet()如果您的模块只包含一个文件,您可以使用dill.source.getsource
对该模块进行pickle,然后将该函数作为对象进行pickle并随后发送。或者,正如我在对上述问题的评论中所提到的,您可以扩展dill.Pickler
和dill.Unpickler
检查任何函数的\uuu module\uuuuu
属性,如果给定的模块不可用,则设置\uu module\uuuu='\uuuu main\uuuu'
,并且只要没有缺少依赖项,is就应该工作。