Neural network 辍学是如何工作的(有多个GPU)?

Neural network 辍学是如何工作的(有多个GPU)?,neural-network,dropout,Neural Network,Dropout,假设我使用多个GPU,训练一个使用辍学的神经网络。我知道,对于每个训练样本,dropout会随机关闭网络中的某些节点,然后只更新“细化网络”中的权重,那么这似乎是一个非常串行的过程。并行期间权重更新是如何组合的 例如,输入#1删除一些x节点,输入#2删除一些其他y节点。假设z节点对于子网络的两个实例都是公共的。辍学是否需要backprop在开始输入2的前馈之前完成输入1?或者,如果并行发生,$z$节点是如何更新的 我已经看到了这一点,但帖子中的答案似乎并没有回答这个问题 我想这篇文章会回答你的问

假设我使用多个GPU,训练一个使用辍学的神经网络。我知道,对于每个训练样本,dropout会随机关闭网络中的某些节点,然后只更新“细化网络”中的权重,那么这似乎是一个非常串行的过程。并行期间权重更新是如何组合的

例如,输入#1删除一些x节点,输入#2删除一些其他y节点。假设z节点对于子网络的两个实例都是公共的。辍学是否需要backprop在开始输入2的前馈之前完成输入1?或者,如果并行发生,$z$节点是如何更新的


我已经看到了这一点,但帖子中的答案似乎并没有回答这个问题

我想这篇文章会回答你的问题,它详细地解释了你的直觉。这篇文章只在很高的层次上解释了辍学的原因。我的问题是关于如何合并权重之后(当在多GPU上训练时)。因此,这篇文章并没有真正的帮助/