Tensorflow textsum培训将平均损失降至合理值大约需要多长时间_Tensorflow_Deep Learning_Textsum

Tensorflow textsum培训将平均损失降至合理值大约需要多长时间

tensorflow deep-learning

Tensorflow textsum培训将平均损失降至合理值大约需要多长时间,tensorflow,deep-learning,textsum,Tensorflow,Deep Learning,Textsum,我正在努力让一个textsum实现正常工作，最近收到了我自己收集的数据。我昨晚开始训练38000篇文章。今天早上，当我查看平均损失时，我大约是5.2000000。例如，当我玩textsum玩具时，我能很快降到0.0000054左右，但这只是针对大约20篇文章我希望有更多经验的人能给我一些关于训练需要多长时间的期望。我目前正在Nvidia 980M上运行此程序。上周我确实想试用AWS g2.2xlarge实例，但讽刺的是，我发现我的本地机器处理事情的速度似乎比网格520快。我仍然想测试P2实例和

我正在努力让一个textsum实现正常工作，最近收到了我自己收集的数据。我昨晚开始训练38000篇文章。今天早上，当我查看平均损失时，我大约是5.2000000。例如，当我玩textsum玩具时，我能很快降到0.0000054左右，但这只是针对大约20篇文章

我希望有更多经验的人能给我一些关于训练需要多长时间的期望。我目前正在Nvidia 980M上运行此程序。上周我确实想试用AWS g2.2xlarge实例，但讽刺的是，我发现我的本地机器处理事情的速度似乎比网格520快。我仍然想测试P2实例和googlecloud，但现在我想我只需要使用我的本地机器

任何人都可以在这里提供关于我期望的信息吗？谢谢

所以我将自己回答这个问题，因为我现在几乎可以这样做。我从另一篇文章中发现了一件有趣的事情，那就是对于一个大数据集，你真的不应该训练低于1的“平均损失”值。这是因为你开始进入“过度装配”。因此，在我目前使用笔记本电脑Nvidia 980M进行的针对40k篇文章的培训中，vocab文件有65997个单词，平均用了大约一天的时间将“平均损失”减少到一个整数。所以现在我看到的数字大约是1.2到2.8

------编辑------ 当我用上面的数字对数据进行解码时，结果非常糟糕。仔细考虑之后，我意识到我的数据集可能不是一个“大型”数据集。像Xin Pan和其他能够访问Gigaword数据集的人正在针对100多万篇文章进行培训。因此，我觉得我的4万篇文章相比之下毫无价值。此外，当上述声明被提出时，我不确定他是指平均损失1还是0.01。不管怎样，我现在指的是Tensorboard，在某种程度上想象“过度装配”，我继续训练，直到我得到一个较低的平均损耗。稍后当我的结果更好时，我会补充这一点

希望这能给那些想知道同样问题的人提供一点参考。

希望这能为那些对此感到疑惑的人提供一点参考。

目前也有同样的问题。你的模型最终发生了什么？你们有没有得到更好的结果？目前也有同样的问题。你们的模型最终发生了什么？你们有没有得到更好的结果？