Tensorflow tf 1.4 seq2seq教程中的采样损耗
谁能告诉我,为什么在tf 1.4的seq2seq教程中Tensorflow tf 1.4 seq2seq教程中的采样损耗,tensorflow,recurrent-neural-network,softmax,Tensorflow,Recurrent Neural Network,Softmax,谁能告诉我,为什么在tf 1.4的seq2seq教程中 他们不使用采样的softmax损耗?在他们的模型中,他们有40000个词汇量,并且只使用了tf.nn的一个减少的总和。稀疏的\u softmax\u交叉的\u熵\u与\u logits,以获得他们的训练损失。在我看来,采样的softmax只适用于训练,当tensorflow知道哪些类是负类时,它不会计算所有类的损失,只计算少数采样的负类和正类的损失。 而对于NMT,我们希望最终得到预测,在这种情况下,采样会影响性能。 此外,对于softma
他们不使用采样的softmax损耗?在他们的模型中,他们有40000个词汇量,并且只使用了
tf.nn的一个减少的总和。稀疏的\u softmax\u交叉的\u熵\u与\u logits
,以获得他们的训练损失。在我看来,采样的softmax只适用于训练,当tensorflow知道哪些类是负类时,它不会计算所有类的损失,只计算少数采样的负类和正类的损失。
而对于NMT,我们希望最终得到预测,在这种情况下,采样会影响性能。
此外,对于softmax,40000个条目也不是那么糟糕。当然,采样只应在训练期间使用,而在预测期间使用正常的softmax。即使是40000名参赛者,抽样也会促进培训。但我的问题是,为什么他们在旧教程中使用了采样的softmax,而在当前教程中却没有使用它。两个教程中的条目数相同。