Nlp 从Huggingface加载Roberta和XLM_Roberta模型后收到错误_Nlp_Text Classification_Huggingface Transformers_Xlm_Roberta

Nlp 从Huggingface加载Roberta和XLM_Roberta模型后收到错误

nlp

Nlp 从Huggingface加载Roberta和XLM_Roberta模型后收到错误,nlp,text-classification,huggingface-transformers,xlm,roberta,Nlp,Text Classification,Huggingface Transformers,Xlm,Roberta,我很喜欢从优秀的“拥抱脸”库中体验不同的变压器。但是，当我尝试使用任何类型的“roberta”/“xlm”变压器时，我会收到以下错误消息。我的Python代码似乎可以很好地处理bert base和bert大型模型，因此我想了解如何调整它以处理这些变体异常：字词错误：词汇表中缺少[UNK]标记我的代码在预先训练好的BERT模型上添加了一个微调层。我之前使用的所有bert模型对我正在分析的英语文本数据进行标记和处理都没有问题。我的Python知识正在增长，但我会将其描述为坚实的基础知识，但在这一

我很喜欢从优秀的“拥抱脸”库中体验不同的变压器。但是，当我尝试使用任何类型的“roberta”/“xlm”变压器时，我会收到以下错误消息。我的Python代码似乎可以很好地处理bert base和bert大型模型，因此我想了解如何调整它以处理这些变体

异常：字词错误：词汇表中缺少[UNK]标记

我的代码在预先训练好的BERT模型上添加了一个微调层。我之前使用的所有bert模型对我正在分析的英语文本数据进行标记和处理都没有问题。我的Python知识正在增长，但我会将其描述为坚实的基础知识，但在这一水平之上还不完善。请帮助我更好地理解这里的问题，以便我可以作出必要的调整，谢谢马克

这是完整的错误消息，如果有帮助的话

---------------------------------------------------------------------------
Exception                                 Traceback (most recent call last)
<ipython-input-61-d42d72a742f6> in <module>()
      5     pad_to_max_length=True,
      6     truncation=True,
----> 7     return_token_type_ids=False
      8 )
      9 


2 frames

/usr/local/lib/python3.6/dist-packages/tokenizers/implementations/base_tokenizer.py in encode_batch(self, inputs, is_pretokenized, add_special_tokens)
    247             raise ValueError("encode_batch: `inputs` can't be `None`")
    248 
--> 249         return self._tokenizer.encode_batch(inputs, is_pretokenized, add_special_tokens)
    250 
    251     def decode(self, ids: List[int], skip_special_tokens: Optional[bool] = True) -> str:

Exception: WordPiece error: Missing [UNK] token from the vocabulary

---------------------------------------------------------------------------
异常回溯（最后一次最近调用）
在（）
5焊盘至焊盘最大长度=真，
6截断=真，
---->7返回\u令牌\u类型\u ID=False
8 )
9
2帧
/编码批处理中的usr/local/lib/python3.6/dist-packages/tokenizers/implementations/base_tokenizer.py（self、inputs、is_pretokenized、add_special_tokens）
247 raise VALUE ERROR（“encode_batch:`inputs`不能为`None`”）
248
-->249返回self.\u标记器.encode\u批处理（输入，预处理，添加特殊标记）
250
251 def解码（self，id:List[int]，skip_特殊_标记：可选[bool]=True）->str:
异常：字词错误：词汇表中缺少[UNK]标记

你能分享几行代码吗？嗨，Ashwin，首先我使用的是transformers的第3版，因为我的代码会产生其他错误消息。。。！pip安装-q transformers==3.0.0-我不知道这个问题是否在以后的版本中得到了解决。我认为错误消息出现在这个单元格中（COLAB不可用）best_valid_loss=float（'inf'）train_loss=[]valid_loss=[]对于范围内的历元（历元）：print（'\n历元{:}/{:}）。format（历元+1，历元））#train model train_loss，(精细调整（）#评估模型有效的_loss，_u=evaluate（）你能分享几行代码吗？嗨，Ashwin，首先我使用transformers的第3版，因为我的代码会产生其他错误消息。。。！pip安装-q transformers==3.0.0-我不知道这个问题是否在以后的版本中得到了解决。我认为错误消息出现在这个单元格中（COLAB不可用）best_valid_loss=float（'inf'）train_loss=[]valid_loss=[]对于范围内的历元（历元）：print（'\n历元{:}/{:}）。format（历元+1，历元））#train model train_loss，(精细调整（）#评估模型有效的_loss，_uz=evaluate（）