Tensorflow textsum培训将平均损失降至合理值大约需要多长时间

Tensorflow textsum培训将平均损失降至合理值大约需要多长时间,tensorflow,deep-learning,textsum,Tensorflow,Deep Learning,Textsum,我正在努力让一个textsum实现正常工作,最近收到了我自己收集的数据。我昨晚开始训练38000篇文章。今天早上,当我查看平均损失时,我大约是5.2000000。例如,当我玩textsum玩具时,我能很快降到0.0000054左右,但这只是针对大约20篇文章 我希望有更多经验的人能给我一些关于训练需要多长时间的期望。我目前正在Nvidia 980M上运行此程序。上周我确实想试用AWS g2.2xlarge实例,但讽刺的是,我发现我的本地机器处理事情的速度似乎比网格520快。我仍然想测试P2实例和

我正在努力让一个textsum实现正常工作,最近收到了我自己收集的数据。我昨晚开始训练38000篇文章。今天早上,当我查看平均损失时,我大约是5.2000000。例如,当我玩textsum玩具时,我能很快降到0.0000054左右,但这只是针对大约20篇文章

我希望有更多经验的人能给我一些关于训练需要多长时间的期望。我目前正在Nvidia 980M上运行此程序。上周我确实想试用AWS g2.2xlarge实例,但讽刺的是,我发现我的本地机器处理事情的速度似乎比网格520快。我仍然想测试P2实例和googlecloud,但现在我想我只需要使用我的本地机器


任何人都可以在这里提供关于我期望的信息吗?谢谢

所以我将自己回答这个问题,因为我现在几乎可以这样做。我从另一篇文章中发现了一件有趣的事情,那就是对于一个大数据集,你真的不应该训练低于1的“平均损失”值。这是因为你开始进入“过度装配”。因此,在我目前使用笔记本电脑Nvidia 980M进行的针对40k篇文章的培训中,vocab文件有65997个单词,平均用了大约一天的时间将“平均损失”减少到一个整数。所以现在我看到的数字大约是1.2到2.8

------编辑------ 当我用上面的数字对数据进行解码时,结果非常糟糕。仔细考虑之后,我意识到我的数据集可能不是一个“大型”数据集。像Xin Pan和其他能够访问Gigaword数据集的人正在针对100多万篇文章进行培训。因此,我觉得我的4万篇文章相比之下毫无价值。此外,当上述声明被提出时,我不确定他是指平均损失1还是0.01。不管怎样,我现在指的是Tensorboard,在某种程度上想象“过度装配”,我继续训练,直到我得到一个较低的平均损耗。稍后当我的结果更好时,我会补充这一点


希望这能给那些想知道同样问题的人提供一点参考。

所以我将自己回答这个问题,因为我现在几乎可以这样做。我从另一篇文章中发现了一件有趣的事情,那就是对于一个大数据集,你真的不应该训练低于1的“平均损失”值。这是因为你开始进入“过度装配”。因此,在我目前使用笔记本电脑Nvidia 980M进行的针对40k篇文章的培训中,vocab文件有65997个单词,平均用了大约一天的时间将“平均损失”减少到一个整数。所以现在我看到的数字大约是1.2到2.8

------编辑------ 当我用上面的数字对数据进行解码时,结果非常糟糕。仔细考虑之后,我意识到我的数据集可能不是一个“大型”数据集。像Xin Pan和其他能够访问Gigaword数据集的人正在针对100多万篇文章进行培训。因此,我觉得我的4万篇文章相比之下毫无价值。此外,当上述声明被提出时,我不确定他是指平均损失1还是0.01。不管怎样,我现在指的是Tensorboard,在某种程度上想象“过度装配”,我继续训练,直到我得到一个较低的平均损耗。稍后当我的结果更好时,我会补充这一点


希望这能为那些对此感到疑惑的人提供一点参考。

目前也有同样的问题。你的模型最终发生了什么?你们有没有得到更好的结果?目前也有同样的问题。你们的模型最终发生了什么?你们有没有得到更好的结果?