Computer vision 为什么在ResNet中的剩余连接后应用ReLU?

Computer vision 为什么在ResNet中的剩余连接后应用ReLU?,computer-vision,deep-learning,resnet,Computer Vision,Deep Learning,Resnet,在ResNet体系结构中,为什么要在元素添加后应用ReLU激活,而不是在剩余块中的剩余块之前?因为它是以这种方式提出的。在以下工作中对剩余连接进行了调查:他们发现,Skip->BN->RELU->Conv->BN->RELU->Conv->Add最有效 但是,性能差异可以忽略不计,因此以原始ResNet公式为准。不过,如果你想知道哪些有效,哪些无效,你可以阅读这篇文章。谢谢。那么这只是一个椭圆的结果吗?或者在设计选择中是否有任何理论见解?这只是一个实证结果。我的意思是,他们试图用一些挥手的东西来

在ResNet体系结构中,为什么要在元素添加后应用ReLU激活,而不是在剩余块中的剩余块之前?

因为它是以这种方式提出的。在以下工作中对剩余连接进行了调查:他们发现,Skip->BN->RELU->Conv->BN->RELU->Conv->Add最有效


但是,性能差异可以忽略不计,因此以原始ResNet公式为准。不过,如果你想知道哪些有效,哪些无效,你可以阅读这篇文章。

谢谢。那么这只是一个椭圆的结果吗?或者在设计选择中是否有任何理论见解?这只是一个实证结果。我的意思是,他们试图用一些挥手的东西来为自己的行为辩护,但这还不是一个合理的理论。关于跳跃连接的理论研究并不多。