根据Tensorflow文档,为什么不鼓励在最后一层中使用softmax作为激活函数?

根据Tensorflow文档,为什么不鼓励在最后一层中使用softmax作为激活函数?,tensorflow,neural-network,softmax,activation-function,Tensorflow,Neural Network,Softmax,Activation Function,我注意到他们不鼓励在最后一层使用softmax函数作为激活函数。解释如下: 虽然这可以使模型输出更直接解释,但不鼓励使用这种方法,因为在使用softmax输出时,不可能为所有模型提供精确且数值稳定的损耗计算 有人能进一步解释这个解释吗?与Tensorflow的文档相反,我在本主题中找到的所有内容都建议在最后一层中使用softmax函数。最近是否发生了一些事情,导致该指南过时且不正确 感谢您提供的见解。检查。谢谢,基于该链接并深入阅读一些文档和其他帖子,我得出以下结论:最佳做法是在使用交叉熵作为损

我注意到他们不鼓励在最后一层使用softmax函数作为激活函数。解释如下:

虽然这可以使模型输出更直接解释,但不鼓励使用这种方法,因为在使用softmax输出时,不可能为所有模型提供精确且数值稳定的损耗计算

有人能进一步解释这个解释吗?与Tensorflow的文档相反,我在本主题中找到的所有内容都建议在最后一层中使用softmax函数。最近是否发生了一些事情,导致该指南过时且不正确


感谢您提供的见解。

检查。谢谢,基于该链接并深入阅读一些文档和其他帖子,我得出以下结论:最佳做法是在使用交叉熵作为损失函数时,避免在培训过程中明确添加softmax作为最后一层。我们需要指定from_logits=True,损失函数将在训练期间自动应用softmax。之后,我们可以自由地包装经过训练的模型,并在最后附加softmax,以便它返回概率以帮助解释。我有这个权利吗?