Python Transformers库中Pegasus模型单词/句子的最大输入长度

Python Transformers库中Pegasus模型单词/句子的最大输入长度,python,machine-learning,nlp,pytorch,huggingface-transformers,Python,Machine Learning,Nlp,Pytorch,Huggingface Transformers,在Transformers库中,Pegasus模型的单词和/或句子的最大输入长度是多少?我在Pegasus的研究论文中读到,最大值是512个标记,但这是多少个单词和/或句子?另外,您可以增加512个令牌的最大数量吗 在Transformers库中,Pegasus模型的单词和/或句子的最大输入长度是多少? 这实际上取决于你的训练前。您可以创建一个支持100个或10000个令牌长度的pegagsus模型。例如,型号google/pegasus-cnn_dailymail支持1024个令牌,而goog

在Transformers库中,Pegasus模型的单词和/或句子的最大输入长度是多少?我在Pegasus的研究论文中读到,最大值是512个标记,但这是多少个单词和/或句子?另外,您可以增加512个令牌的最大数量吗

在Transformers库中,Pegasus模型的单词和/或句子的最大输入长度是多少? 这实际上取决于你的训练前。您可以创建一个支持100个或10000个令牌长度的pegagsus模型。例如,型号
google/pegasus-cnn_dailymail
支持1024个令牌,而
google/pegasus xsum
支持512个令牌:

从变压器导入PegasusTokenizerFast
t=PegasusTokenizerFast.from_pretrained(“google/pegasus xsum”)
t2=PegasusTokenizerFast.来自预先训练(“谷歌/pegasus-cnn每日邮报”)
打印(t.max\u len\u单句)
打印(t2.最大长度单句)
输出:

511
1023
['▁This', '▁is', '▁a', '▁test', '▁sentence']
I know 96103 tokens
['▁neuro', 'psych', 'i', 'atric', '▁conditions']
由于添加到每个序列中的特殊标记,数字减少了一

我在Pegasus的研究论文中读到,最大值是512个标记,但这是多少个单词和/或句子

这取决于你的词汇量

从变压器导入PegasusTokenizerFast
t=PegasusTokenizerFast.from_pretrained(“google/pegasus xsum”)
打印(t.tokenize(‘这是一个测试句子’))
打印(“我知道{}标记”。格式(len(t)))
输出:

511
1023
['▁This', '▁is', '▁a', '▁test', '▁sentence']
I know 96103 tokens
['▁neuro', 'psych', 'i', 'atric', '▁conditions']
一个单词可以是一个标记,但也可以拆分为几个标记:

print(t.tokenize('neurosychiatric conditions'))
输出:

511
1023
['▁This', '▁is', '▁a', '▁test', '▁sentence']
I know 96103 tokens
['▁neuro', 'psych', 'i', 'atric', '▁conditions']
另外,您可以增加512个令牌的最大数量吗

是的,您可以为不同的输入长度训练具有pegasus体系结构的模型,但这是昂贵的