Nlp 将BertTokenizer与HuggingFace GPT-2配合使用

Nlp 将BertTokenizer与HuggingFace GPT-2配合使用,nlp,huggingface-transformers,gpt-2,Nlp,Huggingface Transformers,Gpt 2,我有一个特定的生成问题,涉及从非常小的词汇表构建的数据集。理想情况下,如果我可以简单地在一组固定的标记中提供词汇表,我的用例将更加直观。例如,我知道使用BertTokenizer,我可以提供一个vocab.txt文件,避免进一步标记这个基本词汇表,我想知道是否有办法让GPT-2也这样做?我现在唯一能想到的就是创建一个hackedPretrainedTokenizer子类,但也许有人有更好的主意 任何想法都值得赞赏 更新:好的,当创建GPT2LMHeadModel时,我可以将BertTokeniz

我有一个特定的生成问题,涉及从非常小的词汇表构建的数据集。理想情况下,如果我可以简单地在一组固定的标记中提供词汇表,我的用例将更加直观。例如,我知道使用BertTokenizer,我可以提供一个
vocab.txt
文件,避免进一步标记这个基本词汇表,我想知道是否有办法让GPT-2也这样做?我现在唯一能想到的就是创建一个hacked
PretrainedTokenizer
子类,但也许有人有更好的主意

任何想法都值得赞赏

更新:好的,当创建
GPT2LMHeadModel
时,我可以将
BertTokenizer
BertWordPieceTokenezer
交换掉。(感谢HuggingFace提供设计良好的模块化代码库!)