Nlp 基于特征嵌入的BERT训练_Nlp_Pytorch_Tokenize_Transformer

Nlp 基于特征嵌入的BERT训练

nlp pytorch

Nlp 基于特征嵌入的BERT训练,nlp,pytorch,tokenize,transformer,Nlp,Pytorch,Tokenize,Transformer,将BERT模型中的标记化范式改为其他模式有意义吗？可能只是简单的单词标记化或字符级标记化？这取决于您的目标是什么。使用标准单词标记肯定会起作用，但许多单词最终会超出词汇表，这将导致模型性能不佳从研究的角度来看，完全在字符级别上工作可能会很有趣：了解如何建模将学习如何单独分割文本，以及与标准标记化相比，这样的分割会是什么样子。不过，我不确定它在实际使用中是否会有好处。字符序列比子单词序列长得多，而BERT需要序列长度的二次记忆，这将不必要地减慢训练和推理速度。这是论文“放弃BERT的词条系统并用

将BERT模型中的标记化范式改为其他模式有意义吗？可能只是简单的单词标记化或字符级标记化？

这取决于您的目标是什么。使用标准单词标记肯定会起作用，但许多单词最终会超出词汇表，这将导致模型性能不佳

从研究的角度来看，完全在字符级别上工作可能会很有趣：了解如何建模将学习如何单独分割文本，以及与标准标记化相比，这样的分割会是什么样子。不过，我不确定它在实际使用中是否会有好处。字符序列比子单词序列长得多，而BERT需要序列长度的二次记忆，这将不必要地减慢训练和推理速度。

这是论文“放弃BERT的词条系统并用字符CNN代替”背后的动机之一（就像在ELMo中一样）。通过这种方式，字级标记化可以在没有任何OOV问题的情况下使用（因为模型关注每个标记的字符），并且模型为任何任意输入标记生成单个嵌入

就性能而言，本文表明CharacterBERT通常至少与BERT一样好，同时对有噪声的文本更具鲁棒性