Pytorch 如何禁用Tokenizer_PARALLELISM=(真|假)警告?
我使用Pytork训练huggingface transformers模型,但每个时代都会输出警告:Pytorch 如何禁用Tokenizer_PARALLELISM=(真|假)警告?,pytorch,huggingface-transformers,huggingface-tokenizers,Pytorch,Huggingface Transformers,Huggingface Tokenizers,我使用Pytork训练huggingface transformers模型,但每个时代都会输出警告: The current process just got forked. Disabling parallelism to avoid deadlocks... To disable this warning, please explicitly set TOKENIZERS_PARALLELISM=(true | false) 如何禁用此警告?我通过将huggingface的Transfor
The current process just got forked. Disabling parallelism to avoid deadlocks... To disable this warning, please explicitly set TOKENIZERS_PARALLELISM=(true | false)
如何禁用此警告?我通过将huggingface的Transformers库版本从3.0.0降级到2.11.0,将tokenizers库版本从0.8.0rc4降级到0.7.0,解决了此问题 这似乎是huggingface的标记器库版本“0.8.0rc4”的问题。目前,似乎没有解决方案可以像错误消息所说的那样设置令牌化器_PARALLELISM=(true | false)
参考:将环境变量设置为字符串
“false”
或者
TOKENIZERS_PARALLELISM=false
在你的壳里
或通过:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
在Python脚本中我将在这里留下这条评论,以帮助那些想知道是否有可能在培训期间保持并行性并节省宝贵时间的人。也因为它是在Google上直接搜索错误时的第一个stackoverflow页面 根据这一点,FastTokenizer似乎是问题所在。 另外,根据的规定,在分叉流程之前不应该使用标记器。(这基本上意味着在遍历数据加载器之前) 因此,解决方案是在培训/微调或使用普通令牌之前不要使用FastTokenizer 查看huggingface文档,了解您是否真的需要FastTokenizer