Nlp 将BertTokenizer与HuggingFace GPT-2配合使用
我有一个特定的生成问题,涉及从非常小的词汇表构建的数据集。理想情况下,如果我可以简单地在一组固定的标记中提供词汇表,我的用例将更加直观。例如,我知道使用BertTokenizer,我可以提供一个Nlp 将BertTokenizer与HuggingFace GPT-2配合使用,nlp,huggingface-transformers,gpt-2,Nlp,Huggingface Transformers,Gpt 2,我有一个特定的生成问题,涉及从非常小的词汇表构建的数据集。理想情况下,如果我可以简单地在一组固定的标记中提供词汇表,我的用例将更加直观。例如,我知道使用BertTokenizer,我可以提供一个vocab.txt文件,避免进一步标记这个基本词汇表,我想知道是否有办法让GPT-2也这样做?我现在唯一能想到的就是创建一个hackedPretrainedTokenizer子类,但也许有人有更好的主意 任何想法都值得赞赏 更新:好的,当创建GPT2LMHeadModel时,我可以将BertTokeniz
vocab.txt
文件,避免进一步标记这个基本词汇表,我想知道是否有办法让GPT-2也这样做?我现在唯一能想到的就是创建一个hackedPretrainedTokenizer
子类,但也许有人有更好的主意
任何想法都值得赞赏
更新:好的,当创建GPT2LMHeadModel
时,我可以将BertTokenizer
和BertWordPieceTokenezer
交换掉。(感谢HuggingFace提供设计良好的模块化代码库!)