Pytorch Huggingface BART Transformer的索引超出范围(BART大xsum)

Pytorch Huggingface BART Transformer的索引超出范围(BART大xsum),pytorch,huggingface-transformers,transformer,summarization,huggingface-tokenizers,Pytorch,Huggingface Transformers,Transformer,Summarization,Huggingface Tokenizers,我在总结篇幅较大的长篇文章时遇到了一个问题。 许多模型都有最大输入大小的限制。 所以,它不接受并尝试执行索引超出范围的错误结果。 我特别使用“BART-large-xsum”。请建议在长文档中使用这些模型的正确方法是什么?我应该微调以增加语音大小还是做其他事情 一个带有如何使用“BART-large-xsum”处理长文档示例的代码片段将是一个完美的开始 提前感谢,, 特加 我的代码: Article_text = "Article of more than 10000 charact

我在总结篇幅较大的长篇文章时遇到了一个问题。 许多模型都有最大输入大小的限制。 所以,它不接受并尝试执行索引超出范围的错误结果。 我特别使用“BART-large-xsum”。请建议在长文档中使用这些模型的正确方法是什么?我应该微调以增加语音大小还是做其他事情

一个带有如何使用“BART-large-xsum”处理长文档示例的代码片段将是一个完美的开始

提前感谢,, 特加

我的代码:


Article_text = "Article of more than 10000 characters"

from transformers import AutoModelWithLMHead, AutoTokenizer
model = AutoModelWithLMHead.from_pretrained("bart-large-xsum")
tokenizer = AutoTokenizer.from_pretrained("bart-large-xsum")

inputs = tokenizer.encode("summarize: " + Article_text, return_tensors="pt", max_length=100000)
outputs = model.generate(inputs, max_length=350, min_length=40,use_first = False)
print(tokenizer.decode(outputs[0],skip_special_tokens=True, clean_up_tokenization_spaces=False))