使用tensorflow textsum的样本数据(玩具样本数据)进行培训需要多长时间?

使用tensorflow textsum的样本数据(玩具样本数据)进行培训需要多长时间?,tensorflow,elapsedtime,textsum,Tensorflow,Elapsedtime,Textsum,我正在研究tensorflow的textsum(文本摘要模型)。我已经开始使用示例数据(即从git克隆时随模型提供的玩具数据集)来训练模型。我想知道训练模型和解码样本数据集需要多长时间?它已经用了17个多小时,而且还在运行 不幸的是,使用玩具数据训练集,它只是为您提供一种方法来观察模型的整体流程,而不是为您提供体面的结果。这是因为在玩具数据集中没有提供足够的数据来提供好的结果 时间量有点难以提供,因为它与您正在运行的硬件有关。所以你通常会一直训练,直到你的平均损失在2到1之间。潘欣表示,对于较大

我正在研究tensorflow的textsum(文本摘要模型)。我已经开始使用示例数据(即从git克隆时随模型提供的玩具数据集)来训练模型。我想知道训练模型和解码样本数据集需要多长时间?它已经用了17个多小时,而且还在运行

不幸的是,使用玩具数据训练集,它只是为您提供一种方法来观察模型的整体流程,而不是为您提供体面的结果。这是因为在玩具数据集中没有提供足够的数据来提供好的结果

时间量有点难以提供,因为它与您正在运行的硬件有关。所以你通常会一直训练,直到你的平均损失在2到1之间。潘欣表示,对于较大的数据集,平均损失不得低于1.0。所以,在我的9800米上,我能够在不到一天的时间内通过玩具数据集得到这个

也就是说,我的成绩真的很差,我觉得有点不对劲。我发现唯一的错误是我没有足够的数据。然后,我搜集了大约4万篇文章,结果仍然不可接受。最近,我针对130万篇文章进行了训练,结果好多了。经过进一步分析,这主要是因为textsum模型是抽象的,而不是抽象的


希望这能有所帮助。对于130万台,批量设置为64台,我能够在不到一周半的时间内使用TF 0.9、cuda 7.5和cudnn 4在我的硬件上训练模型。我听说新的cudnn/cuda应该更快,但我现在还不能这么说。

在我的i5处理器上,仅使用cpu,玩具训练数据集的值达到0.17需要大约60个小时


使用8gb的ram,它消耗了大约10gb额外交换的额外内存。增加ram和使用GPU可能会提供更好的结果。目前,我无法显示tensorboard运行平均损耗的图像,但我希望您的问题已得到回答。

正如@Eilian在下面所述,如果您在CPU上运行此操作,您可能会在那里等待一段时间。如果你没有访问GPU的权限,你可能想看看如何使用AWS G2或P2实例:当我对玩具数据集进行训练时,经过大约一天的980M训练,我得到了不错的结果,平均损失非常低。但需要注意的重要一点是,如果使用包含的玩具数据集vocab,则不会得到有效的结果,因为训练集中的单词不在玩具vocab文件中。我在GPU上运行训练模型;Y但我已将“最大运行”步骤更改为“2000”。它运行了2-3个小时,模型得到了训练。在这里,我将玩具数据集分为17-4(训练测试)。并用相同的vocab文件训练模型。但我在解码步骤上遇到了一些问题。更改培训数据时是否需要修改vocab文件?如何从培训数据集中生成vocab文件?仅回答您关于vocab文件的问题。vocab文件所表示的是数据中经过训练的单个单词及其出现的总计数。因此,如果在所有数据文件中,单词“the”出现了150次,那么您将在vocab文件中看到“the 150”。因此,当我创建它时,作为我对原始数据格式化的一部分,我记录了计数,并在最后将数据输出到vocab文件。