具有模型并行性和节点存储变量的分布式Tensorflow

具有模型并行性和节点存储变量的分布式Tensorflow,tensorflow,Tensorflow,想象一下下面的场景,我有一个模型计算图,太大了,不适合一台机器。因此,我想在两台机器之间分割计算图。此外,我希望进行计算的机器也存储它们修改/读取的变量(我不想设置额外的参数服务器,我假设模型图分区访问的变量集是不相交的) 您能否提供一个示例,我可以使用分布式Tensorflow实现此配置,例如使用原语tf.device()?查看Tensorflow站点()上的说明 使用tf.device('/job:worker/task:1')在一台或另一台机器上放置节点。您可以根据需要放置它们,只需注意放

想象一下下面的场景,我有一个模型计算图,太大了,不适合一台机器。因此,我想在两台机器之间分割计算图。此外,我希望进行计算的机器也存储它们修改/读取的变量(我不想设置额外的参数服务器,我假设模型图分区访问的变量集是不相交的)


您能否提供一个示例,我可以使用分布式Tensorflow实现此配置,例如使用原语
tf.device()

查看Tensorflow站点()上的说明

使用
tf.device('/job:worker/task:1')
在一台或另一台机器上放置节点。您可以根据需要放置它们,只需注意放置在不同机器上的输入将需要通过网络发送数据

据我所知,您无法摆脱参数服务器。参数服务器只是一个处理变量更新的作业。没有什么可以阻止您在tensorflow的同一台机器上运行作业。因此,您的设置是在两台机器上启动tensorflow,并在每台机器上放置一个参数服务器。只需确保变量放置在本地参数服务器上(同样使用tf.device)