Math 为什么我们在深度学习中使用对数概率？_Math_Deep Learning_Nlp_Lstm

Math 为什么我们在深度学习中使用对数概率？

math deep-learning nlp

Math 为什么我们在深度学习中使用对数概率？,math,deep-learning,nlp,lstm,Math,Deep Learning,Nlp,Lstm,我在读《用神经网络进行序列到序列学习》这篇论文时感到好奇。事实上，不仅仅是这篇文章，还有很多其他的文章都使用对数概率，这有什么原因吗？请检查所附照片对于任何给定的问题，我们都需要优化参数的可能性。但优化产品需要一次获得所有数据，并且需要大量计算我们知道一个和更容易优化，因为和的导数就是导数的和。因此，使用log将其转换为sum，从而加快计算速度请参阅两个原因- 理论-两个独立事件A和B同时发生的概率由p（A）和p（B）给出。如果我们使用log，这很容易映射到一个和，即log（P（a））

我在读《用神经网络进行序列到序列学习》这篇论文时感到好奇。事实上，不仅仅是这篇文章，还有很多其他的文章都使用对数概率，这有什么原因吗？请检查所附照片

对于任何给定的问题，我们都需要优化参数的可能性。但优化产品需要一次获得所有数据，并且需要大量计算

我们知道一个和更容易优化，因为和的导数就是导数的和。因此，使用log将其转换为sum，从而加快计算速度

请参阅两个原因-

理论-两个独立事件A和B同时发生的概率由p（A）和p（B）给出。如果我们使用log，这很容易映射到一个和，即log（P（a））+log（P（B））。因此，更容易将神经元放电“事件”作为线性函数处理

实用-概率值在[0,1]中。因此，乘以两个或更多个这样小的数字很容易导致浮点精度算术中的下溢（例如考虑乘以0.0001×0.00001）。一个实用的解决方案是使用原木来消除底流

当N变大时，N概率的乘积趋于零。这可能意味着浮点下溢和精度损失。产品的对数等于各对数之和，各对数的大小应合理为负数，且其总和应保持完全精度