Python &引用;OSError:型号名称'/XX和x27;在tokenizers模型名称列表中找不到-无法在转换器中加载自定义标记器

Python &引用;OSError:型号名称'/XX和x27;在tokenizers模型名称列表中找不到-无法在转换器中加载自定义标记器,python,pytorch,bert-language-model,huggingface-transformers,sentencepiece,Python,Pytorch,Bert Language Model,Huggingface Transformers,Sentencepiece,我正在尝试使用Sentencepiece使用我自己的数据集/词汇表创建我自己的标记器,然后将其与标记器转换器一起使用 我非常仔细地学习了关于如何通过拥抱面部从头开始训练模特的教程: 这是我一直收到的错误消息: OSError: Model name './Sent-AlBERT' was not found in tokenizers model name list (albert-base-v1, albert-large-v1, albert-xlarge-v1, albert-xxlarg

我正在尝试使用Sentencepiece使用我自己的数据集/词汇表创建我自己的标记器,然后将其与标记器转换器一起使用

我非常仔细地学习了关于如何通过拥抱面部从头开始训练模特的教程:

这是我一直收到的错误消息:

OSError: Model name './Sent-AlBERT' was not found in tokenizers model name list (albert-base-v1, albert-large-v1, albert-xlarge-v1, albert-xxlarge-v1, albert-base-v2, albert-large-v2, albert-xlarge-v2, albert-xxlarge-v2). We assumed './Sent-AlBERT' was a path, a model identifier, or url to a directory containing vocabulary files named ['spiece.model'] but couldn't find such vocabulary files at this path or url.
出于某种原因,它可以与RobertaTokenizerFast一起使用,但不能与AlbertTokenzier一起使用


如果有人能给我一个关于如何在AlberTokenizer中使用Sentencepiece的建议或任何指导,我将不胜感激。

我还没有深入研究它,但提到标记器使用的是一个扩展名为
spm
的文件,而不是vocab.json。的源代码也正在导入sentencepiece库。提供的Albert模型没有vocab.json。此外,huggingface也不提供标记器。因此,1/2我的猜测是,您不能使用
tokenizers
库中的文件初始化albert标记器。您或者需要使用库来训练一个标记器,或者使用huggingface中的一个标记器,该标记器使用sentencepieceBPE方法。甚至可以将
vocab.txt
merges.txt
转换为
.spm
。2/2我还没有深入研究它,但是提到标记器使用了扩展名为
spm
的文件,而不是vocab.json。的源代码也正在导入sentencepiece库。提供的Albert模型没有vocab.json。此外,huggingface也不提供标记器。因此,1/2我的猜测是,您不能使用
tokenizers
库中的文件初始化albert标记器。您或者需要使用库来训练一个标记器,或者使用huggingface中的一个标记器,该标记器使用sentencepieceBPE方法。甚至可以将
vocab.txt
merges.txt
转换为
.spm
。2/2
    # Re-create our tokenizer in transformers
        tokenizer = AlbertTokenizer.from_pretrained("./Sent-AlBERT", do_lower_case=True)
  
OSError: Model name './Sent-AlBERT' was not found in tokenizers model name list (albert-base-v1, albert-large-v1, albert-xlarge-v1, albert-xxlarge-v1, albert-base-v2, albert-large-v2, albert-xlarge-v2, albert-xxlarge-v2). We assumed './Sent-AlBERT' was a path, a model identifier, or url to a directory containing vocabulary files named ['spiece.model'] but couldn't find such vocabulary files at this path or url.