Nlp 机器翻译的变压器结构_Nlp

Nlp 机器翻译的变压器结构

nlp

Nlp 机器翻译的变压器结构,nlp,Nlp,我已经为我的对齐的阿拉伯语-英语句子语料库改编了基本变压器模型。因此，该模型已训练了40个历元，每个历元的精度（SparseCategoricaccuracy）提高了0.0004倍。为了获得好的结果，我的估计是达到0.5左右的最终精度，40个时代后的精度为0.0592 我在特斯拉2 p80 GPU上运行该模型。每个历元大约需要2690秒。这意味着我需要至少600个纪元，训练时间为15-18天。我应该继续训练吗？还是因为研究论文中的基础变压器是在英法语料库上训练的，所以训练过程中有什么错误

我已经为我的对齐的阿拉伯语-英语句子语料库改编了基本变压器模型。因此，该模型已训练了40个历元，每个历元的精度（SparseCategoricaccuracy）提高了0.0004倍。为了获得好的结果，我的估计是达到0.5左右的最终精度，40个时代后的精度为0.0592

我在特斯拉2 p80 GPU上运行该模型。每个历元大约需要2690秒。这意味着我需要至少600个纪元，训练时间为15-18天。我应该继续训练吗？还是因为研究论文中的基础变压器是在英法语料库上训练的，所以训练过程中有什么错误

主要亮点：

句子的字节对（编码）

最大值=100

批量大小=64

未使用经过预培训的嵌入件

您是指aws p2.xlarge实例上的特斯拉K80吗。如果是这样的话，这些GPU非常慢。您应该在aws上使用p3实例和V100 GPU。您将获得大约6-7倍的加速。查看更多详细信息

此外，如果您不使用标准模型，并且对模型或数据集进行了一些更改，那么请尝试调整超参数。最简单的方法是降低学习速度，看看是否能获得更好的结果

另外，首先尝试使用标准数据集运行标准模型，以对这种情况下所用的时间进行基准测试，然后进行更改并继续。请参见标准情况下模型何时开始收敛。我觉得它也应该在40个时代之后给出一些结果