Math 为什么我们在深度学习中使用对数概率?

Math 为什么我们在深度学习中使用对数概率?,math,deep-learning,nlp,lstm,Math,Deep Learning,Nlp,Lstm,我在读《用神经网络进行序列到序列学习》这篇论文时感到好奇。 事实上,不仅仅是这篇文章,还有很多其他的文章都使用对数概率,这有什么原因吗? 请检查所附照片 对于任何给定的问题,我们都需要优化参数的可能性。但优化产品需要一次获得所有数据,并且需要大量计算 我们知道一个和更容易优化,因为和的导数就是导数的和。因此,使用log将其转换为sum,从而加快计算速度 请参阅两个原因- 理论-两个独立事件A和B同时发生的概率由p(A)和p(B)给出。如果我们使用log,这很容易映射到一个和,即log(P(a))

我在读《用神经网络进行序列到序列学习》这篇论文时感到好奇。 事实上,不仅仅是这篇文章,还有很多其他的文章都使用对数概率,这有什么原因吗? 请检查所附照片


对于任何给定的问题,我们都需要优化参数的可能性。但优化产品需要一次获得所有数据,并且需要大量计算

我们知道一个和更容易优化,因为和的导数就是导数的和。因此,使用log将其转换为sum,从而加快计算速度

请参阅两个原因-

  • 理论-两个独立事件A和B同时发生的概率由p(A)和p(B)给出。如果我们使用log,这很容易映射到一个和,即log(P(a))+log(P(B))。因此,更容易将神经元放电“事件”作为线性函数处理

  • 实用-概率值在[0,1]中。因此,乘以两个或更多个这样小的数字很容易导致浮点精度算术中的下溢(例如考虑乘以0.0001×0.00001)。一个实用的解决方案是使用原木来消除底流

  • 当N变大时,N概率的乘积趋于零。这可能意味着浮点下溢和精度损失。产品的对数等于各对数之和,各对数的大小应合理为负数,且其总和应保持完全精度