Nlp 将BertTokenizer与HuggingFace GPT-2配合使用_Nlp_Huggingface Transformers_Gpt 2

Nlp 将BertTokenizer与HuggingFace GPT-2配合使用

nlp

Nlp 将BertTokenizer与HuggingFace GPT-2配合使用,nlp,huggingface-transformers,gpt-2,Nlp,Huggingface Transformers,Gpt 2,我有一个特定的生成问题，涉及从非常小的词汇表构建的数据集。理想情况下，如果我可以简单地在一组固定的标记中提供词汇表，我的用例将更加直观。例如，我知道使用BertTokenizer，我可以提供一个vocab.txt文件，避免进一步标记这个基本词汇表，我想知道是否有办法让GPT-2也这样做？我现在唯一能想到的就是创建一个hackedPretrainedTokenizer子类，但也许有人有更好的主意任何想法都值得赞赏更新：好的，当创建GPT2LMHeadModel时，我可以将BertTokeniz

我有一个特定的生成问题，涉及从非常小的词汇表构建的数据集。理想情况下，如果我可以简单地在一组固定的标记中提供词汇表，我的用例将更加直观。例如，我知道使用BertTokenizer，我可以提供一个

vocab.txt

文件，避免进一步标记这个基本词汇表，我想知道是否有办法让GPT-2也这样做？我现在唯一能想到的就是创建一个hacked

PretrainedTokenizer

子类，但也许有人有更好的主意

任何想法都值得赞赏

更新：好的，当创建

GPT2LMHeadModel

时，我可以将

BertTokenizer

和

BertWordPieceTokenezer

交换掉。（感谢HuggingFace提供设计良好的模块化代码库！）