';未找到有效符号';在Python中的Google语句块中

';未找到有效符号';在Python中的Google语句块中,python,c++,machine-learning,nlp,Python,C++,Machine Learning,Nlp,我正试图使用以下回购协议对Pytorch上的德国GPT-2模型进行微调: 我第一次在1MB txt文件UTF-8编码上训练它。一切进展顺利,工作顺利。现在,我使用的是刚刚清理过的同一个txt文件(删除了一些空格、一些奇怪的标点符号等…没什么大不了的),我保存和编码的方式与前一个完全相同 在尝试将其用于培训时,我遇到以下错误: bpe_model_trainer.cc(166) LOG(INFO) Updating active symbols. max_freq=0 min_freq=0 bpe

我正试图使用以下回购协议对Pytorch上的德国GPT-2模型进行微调:

我第一次在1MB txt文件UTF-8编码上训练它。一切进展顺利,工作顺利。现在,我使用的是刚刚清理过的同一个txt文件(删除了一些空格、一些奇怪的标点符号等…没什么大不了的),我保存和编码的方式与前一个完全相同

在尝试将其用于培训时,我遇到以下错误:

bpe_model_trainer.cc(166) LOG(INFO) Updating active symbols. max_freq=0 min_freq=0
bpe_model_trainer.cc(257) LOG(INFO) Added: freq=0 size=40520 all=209 active=134 piece=ungsmanagements
bpe_model_trainer.cc(257) LOG(INFO) Added: freq=0 size=40540 all=189 active=114 piece=▁Gesundheitsver
bpe_model_trainer.cc(257) LOG(INFO) Added: freq=0 size=40560 all=169 active=94 piece=▁Problemunkraut
bpe_model_trainer.cc(257) LOG(INFO) Added: freq=0 size=40580 all=149 active=74 piece=▁Wirtschaftslei
bpe_model_trainer.cc(257) LOG(INFO) Added: freq=0 size=40600 all=129 active=54 piece=iskriminierenden
bpe_model_trainer.cc(166) LOG(INFO) Updating active symbols. max_freq=0 min_freq=0
bpe_model_trainer.cc(257) LOG(INFO) Added: freq=0 size=40620 all=109 active=34 piece=▁Bundesbeauftrag
bpe_model_trainer.cc(257) LOG(INFO) Added: freq=0 size=40640 all=89 active=14 piece=▁Nahrstoffbelast
bpe_model_trainer.cc(241) LOG(WARNING) No valid symbol found
trainer_interface.cc(508) LOG(INFO) Saving model: sp-model.model
Traceback (most recent call last):
  File "/usr/local/bin/sp-train", line 11, in <module>
    load_entry_point('lm', 'console_scripts', 'sp-train')()
  File "/content/gdrive/My Drive/testing-gpt2/transformer-lm/lm/data.py", line 62, in sp_train
    f'--character_coverage={args.character_coverage}',
RuntimeError: Internal: /sentencepiece/src/trainer_interface.cc(499) [(trainer_spec_.vocab_size()) == (model_proto->pieces_size())] 
bpe\u model\u trainer.cc(166)LOG(INFO)更新活动符号。最大频率=0最小频率=0
bpe_model_trainer.cc(257)日志(信息)已添加:freq=0 size=40520 all=209 active=134 piece=ungsmanagements
bpe_model_trainer.cc(257)日志(信息)已添加:freq=0 size=40540 all=189 active=114件=▁格松德海茨弗
bpe_model_trainer.cc(257)日志(信息)已添加:频率=0大小=40560所有=169活动=94件=▁问题Unkraut
bpe_model_trainer.cc(257)日志(信息)已添加:freq=0 size=40580 all=149 active=74件=▁维特沙夫茨莱酒店
bpe_model_trainer.cc(257)日志(信息)已添加:freq=0 size=40600 all=129 active=54 piece=iskriminerenden
bpe_model_trainer.cc(166)日志(信息)更新活动符号。最大频率=0最小频率=0
bpe_model_trainer.cc(257)日志(信息)已添加:freq=0 size=40620 all=109 active=34件=▁联邦银行
bpe_model_trainer.cc(257)日志(信息)已添加:freq=0 size=40640 all=89 active=14件=▁纳氏弹性体
bpe_model_trainer.cc(241)日志(警告)未找到有效符号
trainer_interface.cc(508)日志(信息)保存模式:sp-model.model
回溯(最近一次呼叫最后一次):
文件“/usr/local/bin/sp train”,第11行,在
加载入口点(“lm”、“控制台脚本”、“sp序列”)()
文件“/content/gdrive/My Drive/testing-gpt2/transformer lm/lm/data.py”,第62行,sp_列
f'--character_coverage={args.character_coverage}',
运行时错误:Internal:/sentencepiece/src/trainer\u interface.cc(499)[(trainer\u spec\u.vocab\u size())==(model\u proto->pieces\u size())]
从我收集的信息来看,这个错误与Google Sentencepiece有关,它找不到任何有效的符号。我完全不知道这意味着什么。我尝试过更改文件的编码,以及删除德语特殊字符,但没有任何效果。我也尝试过使用不同的参数运行Sentencepiece,比如字符覆盖率(如这里所解释的),但没有任何帮助

我甚至不确定我是否理解错误,因此任何帮助都将不胜感激。 谢谢