Python Transformers库中Pegasus模型单词/句子的最大输入长度_Python_Machine Learning_Nlp_Pytorch_Huggingface Transformers

Python Transformers库中Pegasus模型单词/句子的最大输入长度

python machine-learning nlp pytorch

Python Transformers库中Pegasus模型单词/句子的最大输入长度,python,machine-learning,nlp,pytorch,huggingface-transformers,Python,Machine Learning,Nlp,Pytorch,Huggingface Transformers,在Transformers库中，Pegasus模型的单词和/或句子的最大输入长度是多少？我在Pegasus的研究论文中读到，最大值是512个标记，但这是多少个单词和/或句子？另外，您可以增加512个令牌的最大数量吗在Transformers库中，Pegasus模型的单词和/或句子的最大输入长度是多少？这实际上取决于你的训练前。您可以创建一个支持100个或10000个令牌长度的pegagsus模型。例如，型号google/pegasus-cnn_dailymail支持1024个令牌，而goog

在Transformers库中，Pegasus模型的单词和/或句子的最大输入长度是多少？我在Pegasus的研究论文中读到，最大值是512个标记，但这是多少个单词和/或句子？另外，您可以增加512个令牌的最大数量吗

在Transformers库中，Pegasus模型的单词和/或句子的最大输入长度是多少？这实际上取决于你的训练前。您可以创建一个支持100个或10000个令牌长度的pegagsus模型。例如，型号

google/pegasus-cnn_dailymail

支持1024个令牌，而

google/pegasus xsum

支持512个令牌：

从变压器导入PegasusTokenizerFast
t=PegasusTokenizerFast.from_pretrained（“google/pegasus xsum”）
t2=PegasusTokenizerFast.来自预先训练（“谷歌/pegasus-cnn每日邮报”）
打印（t.max\u len\u单句）
打印（t2.最大长度单句）

输出：

511
1023

['▁This', '▁is', '▁a', '▁test', '▁sentence']
I know 96103 tokens

['▁neuro', 'psych', 'i', 'atric', '▁conditions']

由于添加到每个序列中的特殊标记，数字减少了一

我在Pegasus的研究论文中读到，最大值是512个标记，但这是多少个单词和/或句子

这取决于你的词汇量

从变压器导入PegasusTokenizerFast
t=PegasusTokenizerFast.from_pretrained（“google/pegasus xsum”）
打印（t.tokenize（‘这是一个测试句子’））
打印（“我知道{}标记”。格式（len（t）））

输出：

511
1023

['▁This', '▁is', '▁a', '▁test', '▁sentence']
I know 96103 tokens

['▁neuro', 'psych', 'i', 'atric', '▁conditions']

一个单词可以是一个标记，但也可以拆分为几个标记：

print（t.tokenize（'neurosychiatric conditions'））

输出：

511
1023

['▁This', '▁is', '▁a', '▁test', '▁sentence']
I know 96103 tokens

['▁neuro', 'psych', 'i', 'atric', '▁conditions']

另外，您可以增加512个令牌的最大数量吗

是的，您可以为不同的输入长度训练具有pegasus体系结构的模型，但这是昂贵的