Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Deep learning 与RoBERTa一起使用文字标记化_Deep Learning_Bert Language Model_Huggingface Transformers_Transfer Learning_Roberta Language Model - Fatal编程技术网

Deep learning 与RoBERTa一起使用文字标记化

Deep learning 与RoBERTa一起使用文字标记化,deep-learning,bert-language-model,huggingface-transformers,transfer-learning,roberta-language-model,Deep Learning,Bert Language Model,Huggingface Transformers,Transfer Learning,Roberta Language Model,据我所知,库实现的RoBERTa模型使用BPE标记器。以下是文档的链接: 但是,我有一个基于单词标记化的自定义标记器,我使用了标记器 因为我的定制标记器与我的任务更相关,所以我不喜欢使用BPE 当我用我的定制标记器从零开始预先训练RoBERTa(RobertaForMaskedLM)时,传销任务的损失要比BPE的损失好得多。然而,当涉及到微调时,模型(RobertaForSequenceClassification)表现不佳。我几乎可以肯定问题不在于标记器。我想知道RobertaForSequ

据我所知,库实现的RoBERTa模型使用BPE标记器。以下是文档的链接:

但是,我有一个基于单词标记化的自定义标记器,我使用了标记器

因为我的定制标记器与我的任务更相关,所以我不喜欢使用BPE

当我用我的定制标记器从零开始预先训练RoBERTa(RobertaForMaskedLM)时,传销任务的损失要比BPE的损失好得多。然而,当涉及到微调时,模型(RobertaForSequenceClassification)表现不佳。我几乎可以肯定问题不在于标记器。我想知道RobertaForSequenceClassification的huggingface库是否与我的标记器不兼容

有关微调的详细信息:

任务:标签不平衡的多标签分类

纪元:20

损失:BCEWithLogitsLoss()

优化器:亚当,重量衰减率:0.01,lr:2e-5,校正偏差:真

F1和AUC非常低,因为标签的输出概率与实际标签不一致(即使阈值非常低),这意味着模型无法学到任何东西

*

注:使用BPE令牌化器预先培训和微调的RoBERTa 性能优于经过预培训并通过定制进行微调的 tokenizer虽然使用定制tokenizer的传销损失更好 而不是BPE


这是否意味着你自己训练了一整只罗伯塔,而没有使用任何预训练的重量,比如
RoBERTa base
?我也不认为这是由标记器造成的。如果您可以添加一些关于微调的信息(学习速率时代、训练规模、准确性……),那将是非常棒的。请将此信息直接添加到您的问题中。我已经删除了一些不再相关的注释。此外,了解用于从头开始训练模型的数据的大小可能会很有趣。此外,请分享用于训练和微调的部分代码。(只是为了确保您在适当的模型上进行微调)这是否意味着您已经自己训练了整个RoBERTa,而没有使用任何预训练权重,如
RoBERTa base
?我也不认为这是由标记器造成的。如果您可以添加一些关于微调的信息(学习速率时代、训练规模、准确性……),那将是非常棒的。请将此信息直接添加到您的问题中。我已经删除了一些不再相关的注释。此外,了解用于从头开始训练模型的数据的大小可能会很有趣。此外,请分享用于训练和微调的部分代码。(只是为了确保您在适当的型号上进行微调)