Nlp 从Huggingface加载Roberta和XLM_Roberta模型后收到错误

Nlp 从Huggingface加载Roberta和XLM_Roberta模型后收到错误,nlp,text-classification,huggingface-transformers,xlm,roberta,Nlp,Text Classification,Huggingface Transformers,Xlm,Roberta,我很喜欢从优秀的“拥抱脸”库中体验不同的变压器。但是,当我尝试使用任何类型的“roberta”/“xlm”变压器时,我会收到以下错误消息。我的Python代码似乎可以很好地处理bert base和bert大型模型,因此我想了解如何调整它以处理这些变体 异常:字词错误:词汇表中缺少[UNK]标记 我的代码在预先训练好的BERT模型上添加了一个微调层。我之前使用的所有bert模型对我正在分析的英语文本数据进行标记和处理都没有问题。我的Python知识正在增长,但我会将其描述为坚实的基础知识,但在这一

我很喜欢从优秀的“拥抱脸”库中体验不同的变压器。但是,当我尝试使用任何类型的“roberta”/“xlm”变压器时,我会收到以下错误消息。我的Python代码似乎可以很好地处理bert base和bert大型模型,因此我想了解如何调整它以处理这些变体

异常:字词错误:词汇表中缺少[UNK]标记

我的代码在预先训练好的BERT模型上添加了一个微调层。我之前使用的所有bert模型对我正在分析的英语文本数据进行标记和处理都没有问题。我的Python知识正在增长,但我会将其描述为坚实的基础知识,但在这一水平之上还不完善。请帮助我更好地理解这里的问题,以便我可以作出必要的调整,谢谢马克

这是完整的错误消息,如果有帮助的话

---------------------------------------------------------------------------
Exception                                 Traceback (most recent call last)
<ipython-input-61-d42d72a742f6> in <module>()
      5     pad_to_max_length=True,
      6     truncation=True,
----> 7     return_token_type_ids=False
      8 )
      9 


2 frames

/usr/local/lib/python3.6/dist-packages/tokenizers/implementations/base_tokenizer.py in encode_batch(self, inputs, is_pretokenized, add_special_tokens)
    247             raise ValueError("encode_batch: `inputs` can't be `None`")
    248 
--> 249         return self._tokenizer.encode_batch(inputs, is_pretokenized, add_special_tokens)
    250 
    251     def decode(self, ids: List[int], skip_special_tokens: Optional[bool] = True) -> str:

Exception: WordPiece error: Missing [UNK] token from the vocabulary
---------------------------------------------------------------------------
异常回溯(最后一次最近调用)
在()
5焊盘至焊盘最大长度=真,
6截断=真,
---->7返回\u令牌\u类型\u ID=False
8 )
9
2帧
/编码批处理中的usr/local/lib/python3.6/dist-packages/tokenizers/implementations/base_tokenizer.py(self、inputs、is_pretokenized、add_special_tokens)
247 raise VALUE ERROR(“encode_batch:`inputs`不能为`None`”)
248
-->249返回self.\u标记器.encode\u批处理(输入,预处理,添加特殊标记)
250
251 def解码(self,id:List[int],skip_特殊_标记:可选[bool]=True)->str:
异常:字词错误:词汇表中缺少[UNK]标记

你能分享几行代码吗?嗨,Ashwin,首先我使用的是transformers的第3版,因为我的代码会产生其他错误消息。。。!pip安装-q transformers==3.0.0-我不知道这个问题是否在以后的版本中得到了解决。我认为错误消息出现在这个单元格中(COLAB不可用)best_valid_loss=float('inf')train_loss=[]valid_loss=[]对于范围内的历元(历元):print('\n历元{:}/{:})。format(历元+1,历元))#train model train_loss,(精细调整()#评估模型有效的_loss,_u=evaluate()你能分享几行代码吗?嗨,Ashwin,首先我使用transformers的第3版,因为我的代码会产生其他错误消息。。。!pip安装-q transformers==3.0.0-我不知道这个问题是否在以后的版本中得到了解决。我认为错误消息出现在这个单元格中(COLAB不可用)best_valid_loss=float('inf')train_loss=[]valid_loss=[]对于范围内的历元(历元):print('\n历元{:}/{:})。format(历元+1,历元))#train model train_loss,(精细调整()#评估模型有效的_loss,_uz=evaluate()