Neural network sigmoid和tanh的数据集值分布

Neural network sigmoid和tanh的数据集值分布,neural-network,dataset,artificial-intelligence,normalization,sigmoid,Neural Network,Dataset,Artificial Intelligence,Normalization,Sigmoid,正如许多论文所指出的,为了更好地学习神经网络曲线,最好以一种值匹配高斯曲线的方式对数据集进行归一化 这是否仅适用于使用sigmoid函数作为挤压函数? 如果不是,什么样的偏差最适合tanh挤压功能 这是否仅适用于使用sigmoid函数作为挤压函数 不,激活分布显然取决于激活函数,这就是为什么基于sigmoid和relu的神经网络的初始化技术不同的原因。看看Xavier和He之间的区别。输入分布也是如此 若并没有,那个么对于tanh挤压函数,什么样的偏移是最好的 但是tanh是一个缩放和移位的si

正如许多论文所指出的,为了更好地学习神经网络曲线,最好以一种值匹配高斯曲线的方式对数据集进行归一化

这是否仅适用于使用sigmoid函数作为挤压函数? 如果不是,什么样的偏差最适合tanh挤压功能

这是否仅适用于使用sigmoid函数作为挤压函数

不,激活分布显然取决于激活函数,这就是为什么基于sigmoid和relu的神经网络的初始化技术不同的原因。看看Xavier和He之间的区别。输入分布也是如此

若并没有,那个么对于tanh挤压函数,什么样的偏移是最好的

但是
tanh
是一个缩放和移位的
sigmoid

tanh(x) = 2⋅sigmoid(2x) - 1
因此,如果乙状结肠的激活是正态分布的,那么tanh的激活仍然是正态分布的。只有标度标准差和移动平均值。因此,相同的输入分布对tanh也适用。如果您希望获得相同的高斯方差,可以通过
sqrt(2)
来缩放输入,但它实际上没有那么重要