Pytorch 使用Python Pytork的变压器摘要-如何获得更长的输出?
我使用人工智能技术对最新成果进行总结 我是否应该亲自训练它以获得比原始huggingface github训练脚本更长的摘要输出? : 当我和你做推理的时候Pytorch 使用Python Pytork的变压器摘要-如何获得更长的输出?,pytorch,huggingface-transformers,pytorch-ignite,Pytorch,Huggingface Transformers,Pytorch Ignite,我使用人工智能技术对最新成果进行总结 我是否应该亲自训练它以获得比原始huggingface github训练脚本更长的摘要输出? : 当我和你做推理的时候 --min_length 500 \ --max_length 600 \ 我得到了200个令牌的良好输出,但其余的文本是 . . . [unused7] [unused7] [unused7] [unused8] [unused4] [unused7] [unused7] [unused4] [unused7] [unused8].
--min_length 500 \
--max_length 600 \
我得到了200个令牌的良好输出,但其余的文本是
. . . [unused7] [unused7] [unused7] [unused8] [unused4] [unused7] [unused7] [unused4] [unused7] [unused8]. [unused4] [unused7] . [unused4] [unused8] [unused4] [unused8]. [unused4] [unused4] [unused8] [unused4] . . [unused4] [unused6] [unused4] [unused7] [unused6] [unused4] [unused8] [unused5] [unused4] [unused7] [unused4] [unused4] [unused7]. [unused4] [unused6]. [unused4] [unused4] [unused4] [unused8] [unused4] [unused7] [unused4] [unused8] [unused6] [unused4] [unused4] [unused4]. [unused4]. [unused5] [unused4] [unused8] [unused7] [unused4] [unused7] [unused9] [unused4] [unused7] [unused4] [unused7] [unused5] [unused4] [unused5] [unused4] [unused6] [unused4]. . . [unused5]. [unused4] [unused4] [unused4] [unused6] [unused5] [unused4] [unused4] [unused6] [unused4] [unused6] [unused4] [unused4] [unused5] [unused4]. [unused5] [unused4] . [unused4] [unused4] [unused8] [unused8] [unused4] [unused7] [unused4] [unused8] [unused4] [unused7] [unused4] [unused8] [unused4] [unused8] [unused4] [unused6]
简单的回答是:是的,可能
为了更详细地解释这一点,我们必须查看实现背后的内容:在表1中,您可以清楚地看到,它们生成的大多数标题都比您试图初始化的标题要短得多。虽然这一点本身并不能说明您无法再生成任何内容,但我们可以更深入地了解[unusedX]标记的含义,如BERT dev所述:
由于未使用[unusedX]标记,因此有效地对其进行了随机初始化
此外,总结文件描述了
原始BERT模型中的位置嵌入具有最大长度
512人;我们通过增加更多的位置来克服这个限制
随机初始化并使用其他工具进行微调的em层理
编码器中的参数
这是一个强有力的指标,表明超过一定长度后,它们很可能会返回到默认初始化,不幸的是,这是随机的。问题是你是否仍然可以挽救之前的预培训,并简单地调整到你的目标,还是从零开始更好。简短的回答是:是的,可能
为了更详细地解释这一点,我们必须查看实现背后的内容:在表1中,您可以清楚地看到,它们生成的大多数标题都比您试图初始化的标题要短得多。虽然这一点本身并不能说明您无法再生成任何内容,但我们可以更深入地了解[unusedX]标记的含义,如BERT dev所述:
由于未使用[unusedX]标记,因此有效地对其进行了随机初始化
此外,总结文件描述了
原始BERT模型中的位置嵌入具有最大长度
512人;我们通过增加更多的位置来克服这个限制
随机初始化并使用其他工具进行微调的em层理
编码器中的参数
这是一个强有力的指标,表明超过一定长度后,它们很可能会返回到默认初始化,不幸的是,这是随机的。问题是你是否仍然可以挽救之前的预训练,并简单地调整到你的目标,还是从零开始更好
. . . [unused7] [unused7] [unused7] [unused8] [unused4] [unused7] [unused7] [unused4] [unused7] [unused8]. [unused4] [unused7] . [unused4] [unused8] [unused4] [unused8]. [unused4] [unused4] [unused8] [unused4] . . [unused4] [unused6] [unused4] [unused7] [unused6] [unused4] [unused8] [unused5] [unused4] [unused7] [unused4] [unused4] [unused7]. [unused4] [unused6]. [unused4] [unused4] [unused4] [unused8] [unused4] [unused7] [unused4] [unused8] [unused6] [unused4] [unused4] [unused4]. [unused4]. [unused5] [unused4] [unused8] [unused7] [unused4] [unused7] [unused9] [unused4] [unused7] [unused4] [unused7] [unused5] [unused4] [unused5] [unused4] [unused6] [unused4]. . . [unused5]. [unused4] [unused4] [unused4] [unused6] [unused5] [unused4] [unused4] [unused6] [unused4] [unused6] [unused4] [unused4] [unused5] [unused4]. [unused5] [unused4] . [unused4] [unused4] [unused8] [unused8] [unused4] [unused7] [unused4] [unused8] [unused4] [unused7] [unused4] [unused8] [unused4] [unused8] [unused4] [unused6]