Tensorflow tf 1.4 seq2seq教程中的采样损耗_Tensorflow_Recurrent Neural Network_Softmax

Tensorflow tf 1.4 seq2seq教程中的采样损耗

tensorflow

Tensorflow tf 1.4 seq2seq教程中的采样损耗,tensorflow,recurrent-neural-network,softmax,Tensorflow,Recurrent Neural Network,Softmax,谁能告诉我，为什么在tf 1.4的seq2seq教程中他们不使用采样的softmax损耗？在他们的模型中，他们有40000个词汇量，并且只使用了tf.nn的一个减少的总和。稀疏的\u softmax\u交叉的\u熵\u与\u logits，以获得他们的训练损失。在我看来，采样的softmax只适用于训练，当tensorflow知道哪些类是负类时，它不会计算所有类的损失，只计算少数采样的负类和正类的损失。而对于NMT，我们希望最终得到预测，在这种情况下，采样会影响性能。此外，对于softma

谁能告诉我，为什么在tf 1.4的seq2seq教程中

他们不使用采样的softmax损耗？在他们的模型中，他们有40000个词汇量，并且只使用了

tf.nn的一个减少的总和。稀疏的\u softmax\u交叉的\u熵\u与\u logits

，以获得他们的训练损失。

在我看来，采样的softmax只适用于训练，当tensorflow知道哪些类是负类时，它不会计算所有类的损失，只计算少数采样的负类和正类的损失。而对于NMT，我们希望最终得到预测，在这种情况下，采样会影响性能。

此外，对于softmax，40000个条目也不是那么糟糕。

当然，采样只应在训练期间使用，而在预测期间使用正常的softmax。即使是40000名参赛者，抽样也会促进培训。但我的问题是，为什么他们在旧教程中使用了采样的softmax，而在当前教程中却没有使用它。两个教程中的条目数相同。