Pytorch 使用Python Pytork的变压器摘要-如何获得更长的输出?

Pytorch 使用Python Pytork的变压器摘要-如何获得更长的输出?,pytorch,huggingface-transformers,pytorch-ignite,Pytorch,Huggingface Transformers,Pytorch Ignite,我使用人工智能技术对最新成果进行总结 我是否应该亲自训练它以获得比原始huggingface github训练脚本更长的摘要输出? : 当我和你做推理的时候 --min_length 500 \ --max_length 600 \ 我得到了200个令牌的良好输出,但其余的文本是 . . . [unused7] [unused7] [unused7] [unused8] [unused4] [unused7] [unused7] [unused4] [unused7] [unused8].

我使用人工智能技术对最新成果进行总结

我是否应该亲自训练它以获得比原始huggingface github训练脚本更长的摘要输出? :

当我和你做推理的时候

--min_length 500 \
--max_length 600 \
我得到了200个令牌的良好输出,但其余的文本是

. . . [unused7] [unused7] [unused7] [unused8] [unused4] [unused7] [unused7]  [unused4] [unused7] [unused8]. [unused4] [unused7] . [unused4] [unused8] [unused4] [unused8].  [unused4]  [unused4] [unused8]  [unused4] . .  [unused4] [unused6] [unused4] [unused7] [unused6] [unused4] [unused8] [unused5] [unused4] [unused7] [unused4] [unused4] [unused7]. [unused4] [unused6]. [unused4] [unused4] [unused4] [unused8]  [unused4] [unused7]  [unused4] [unused8] [unused6] [unused4]   [unused4] [unused4]. [unused4].  [unused5] [unused4] [unused8] [unused7] [unused4] [unused7] [unused9] [unused4] [unused7]  [unused4] [unused7] [unused5] [unused4]  [unused5] [unused4] [unused6]  [unused4]. .  . [unused5]. [unused4]  [unused4]   [unused4] [unused6] [unused5] [unused4] [unused4]  [unused6] [unused4] [unused6]  [unused4] [unused4] [unused5] [unused4]. [unused5]  [unused4] . [unused4]  [unused4] [unused8] [unused8] [unused4]  [unused7] [unused4] [unused8]  [unused4] [unused7]  [unused4] [unused8]  [unused4]  [unused8] [unused4] [unused6] 
简单的回答是:是的,可能

为了更详细地解释这一点,我们必须查看实现背后的内容:在表1中,您可以清楚地看到,它们生成的大多数标题都比您试图初始化的标题要短得多。虽然这一点本身并不能说明您无法再生成任何内容,但我们可以更深入地了解[unusedX]标记的含义,如BERT dev所述:

由于未使用[unusedX]标记,因此有效地对其进行了随机初始化

此外,总结文件描述了

原始BERT模型中的位置嵌入具有最大长度 512人;我们通过增加更多的位置来克服这个限制 随机初始化并使用其他工具进行微调的em层理 编码器中的参数

这是一个强有力的指标,表明超过一定长度后,它们很可能会返回到默认初始化,不幸的是,这是随机的。问题是你是否仍然可以挽救之前的预培训,并简单地调整到你的目标,还是从零开始更好。

简短的回答是:是的,可能

为了更详细地解释这一点,我们必须查看实现背后的内容:在表1中,您可以清楚地看到,它们生成的大多数标题都比您试图初始化的标题要短得多。虽然这一点本身并不能说明您无法再生成任何内容,但我们可以更深入地了解[unusedX]标记的含义,如BERT dev所述:

由于未使用[unusedX]标记,因此有效地对其进行了随机初始化

此外,总结文件描述了

原始BERT模型中的位置嵌入具有最大长度 512人;我们通过增加更多的位置来克服这个限制 随机初始化并使用其他工具进行微调的em层理 编码器中的参数

这是一个强有力的指标,表明超过一定长度后,它们很可能会返回到默认初始化,不幸的是,这是随机的。问题是你是否仍然可以挽救之前的预训练,并简单地调整到你的目标,还是从零开始更好

. . . [unused7] [unused7] [unused7] [unused8] [unused4] [unused7] [unused7]  [unused4] [unused7] [unused8]. [unused4] [unused7] . [unused4] [unused8] [unused4] [unused8].  [unused4]  [unused4] [unused8]  [unused4] . .  [unused4] [unused6] [unused4] [unused7] [unused6] [unused4] [unused8] [unused5] [unused4] [unused7] [unused4] [unused4] [unused7]. [unused4] [unused6]. [unused4] [unused4] [unused4] [unused8]  [unused4] [unused7]  [unused4] [unused8] [unused6] [unused4]   [unused4] [unused4]. [unused4].  [unused5] [unused4] [unused8] [unused7] [unused4] [unused7] [unused9] [unused4] [unused7]  [unused4] [unused7] [unused5] [unused4]  [unused5] [unused4] [unused6]  [unused4]. .  . [unused5]. [unused4]  [unused4]   [unused4] [unused6] [unused5] [unused4] [unused4]  [unused6] [unused4] [unused6]  [unused4] [unused4] [unused5] [unused4]. [unused5]  [unused4] . [unused4]  [unused4] [unused8] [unused8] [unused4]  [unused7] [unused4] [unused8]  [unused4] [unused7]  [unused4] [unused8]  [unused4]  [unused8] [unused4] [unused6]