Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/perl/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 机器翻译的变压器结构_Nlp - Fatal编程技术网

Nlp 机器翻译的变压器结构

Nlp 机器翻译的变压器结构,nlp,Nlp,我已经为我的对齐的阿拉伯语-英语句子语料库改编了基本变压器模型。因此,该模型已训练了40个历元,每个历元的精度(SparseCategoricaccuracy)提高了0.0004倍。 为了获得好的结果,我的估计是达到0.5左右的最终精度,40个时代后的精度为0.0592 我在特斯拉2 p80 GPU上运行该模型。每个历元大约需要2690秒。 这意味着我需要至少600个纪元,训练时间为15-18天。 我应该继续训练吗?还是因为研究论文中的基础变压器是在英法语料库上训练的,所以训练过程中有什么错误

我已经为我的对齐的阿拉伯语-英语句子语料库改编了基本变压器模型。因此,该模型已训练了40个历元,每个历元的精度(SparseCategoricaccuracy)提高了0.0004倍。 为了获得好的结果,我的估计是达到0.5左右的最终精度,40个时代后的精度为0.0592

我在特斯拉2 p80 GPU上运行该模型。每个历元大约需要2690秒。 这意味着我需要至少600个纪元,训练时间为15-18天。 我应该继续训练吗?还是因为研究论文中的基础变压器是在英法语料库上训练的,所以训练过程中有什么错误

主要亮点:

  • 句子的字节对(编码)
  • 最大值=100
  • 批量大小=64
  • 未使用经过预培训的嵌入件

  • 您是指aws p2.xlarge实例上的特斯拉K80吗。 如果是这样的话,这些GPU非常慢。您应该在aws上使用p3实例和V100 GPU。您将获得大约6-7倍的加速。 查看更多详细信息

    此外,如果您不使用标准模型,并且对模型或数据集进行了一些更改,那么请尝试调整超参数。最简单的方法是降低学习速度,看看是否能获得更好的结果

    另外,首先尝试使用标准数据集运行标准模型,以对这种情况下所用的时间进行基准测试,然后进行更改并继续。请参见标准情况下模型何时开始收敛。我觉得它也应该在40个时代之后给出一些结果