Deep learning 与RoBERTa一起使用文字标记化_Deep Learning_Bert Language Model_Huggingface Transformers_Transfer Learning_Roberta Language Model

Deep learning 与RoBERTa一起使用文字标记化

deep-learning

Deep learning 与RoBERTa一起使用文字标记化,deep-learning,bert-language-model,huggingface-transformers,transfer-learning,roberta-language-model,Deep Learning,Bert Language Model,Huggingface Transformers,Transfer Learning,Roberta Language Model,据我所知，库实现的RoBERTa模型使用BPE标记器。以下是文档的链接：但是，我有一个基于单词标记化的自定义标记器，我使用了标记器因为我的定制标记器与我的任务更相关，所以我不喜欢使用BPE 当我用我的定制标记器从零开始预先训练RoBERTa（RobertaForMaskedLM）时，传销任务的损失要比BPE的损失好得多。然而，当涉及到微调时，模型（RobertaForSequenceClassification）表现不佳。我几乎可以肯定问题不在于标记器。我想知道RobertaForSequ

据我所知，库实现的RoBERTa模型使用BPE标记器。以下是文档的链接：

但是，我有一个基于单词标记化的自定义标记器，我使用了标记器
因为我的定制标记器与我的任务更相关，所以我不喜欢使用BPE
当我用我的定制标记器从零开始预先训练RoBERTa（RobertaForMaskedLM）时，传销任务的损失要比BPE的损失好得多。然而，当涉及到微调时，模型（RobertaForSequenceClassification）表现不佳。我几乎可以肯定问题不在于标记器。我想知道RobertaForSequenceClassification的huggingface库是否与我的标记器不兼容
有关微调的详细信息：
任务：标签不平衡的多标签分类
纪元：20
损失：BCEWithLogitsLoss（）
优化器：亚当，重量衰减率：0.01，lr:2e-5，校正偏差：真
F1和AUC非常低，因为标签的输出概率与实际标签不一致（即使阈值非常低），这意味着模型无法学到任何东西
*
注：使用BPE令牌化器预先培训和微调的RoBERTa 性能优于经过预培训并通过定制进行微调的 tokenizer虽然使用定制tokenizer的传销损失更好而不是BPE

这是否意味着你自己训练了一整只罗伯塔，而没有使用任何预训练的重量，比如
RoBERTa base
？我也不认为这是由标记器造成的。如果您可以添加一些关于微调的信息（学习速率时代、训练规模、准确性……），那将是非常棒的。请将此信息直接添加到您的问题中。我已经删除了一些不再相关的注释。此外，了解用于从头开始训练模型的数据的大小可能会很有趣。此外，请分享用于训练和微调的部分代码。（只是为了确保您在适当的模型上进行微调）这是否意味着您已经自己训练了整个RoBERTa，而没有使用任何预训练权重，如
RoBERTa base
？我也不认为这是由标记器造成的。如果您可以添加一些关于微调的信息（学习速率时代、训练规模、准确性……），那将是非常棒的。请将此信息直接添加到您的问题中。我已经删除了一些不再相关的注释。此外，了解用于从头开始训练模型的数据的大小可能会很有趣。此外，请分享用于训练和微调的部分代码。（只是为了确保您在适当的型号上进行微调）