Deep learning 为什么不同的std值对网络训练有如此大的差异

Deep learning 为什么不同的std值对网络训练有如此大的差异,deep-learning,caffe,conv-neural-network,Deep Learning,Caffe,Conv Neural Network,我一直在努力训练一个网络。我的网络也不会融合。但当我把高斯标准从0.01改为0.0001时,我的网络融合得非常好。谁能给我解释一下吗?这里最大的区别是什么?我的另一个经验是,xavierfiller产生了更糟糕的结果 提前谢谢 没有人能给你一个如此详细的解释,而且我不认为这个问题是可以回答的,即使你提供了网络架构,初始化的效果对于很多架构来说都是一个开放的问题。好吧,那么使用0.0001并不奇怪@MatiasValdenegro@thigi如果它起作用,那就不奇怪了好吧,很高兴知道。我正在将我的

我一直在努力训练一个网络。我的网络也不会融合。但当我把高斯标准从0.01改为0.0001时,我的网络融合得非常好。谁能给我解释一下吗?这里最大的区别是什么?我的另一个经验是,
xavier
filler产生了更糟糕的结果


提前谢谢

没有人能给你一个如此详细的解释,而且我不认为这个问题是可以回答的,即使你提供了网络架构,初始化的效果对于很多架构来说都是一个开放的问题。好吧,那么使用0.0001并不奇怪@MatiasValdenegro@thigi如果它起作用,那就不奇怪了好吧,很高兴知道。我正在将我的输出值从[0255]缩放到[0,1],因此这可能是我必须降低标准的原因。但这只是一个猜测。我将尝试不缩放值,看看会发生什么@谢