Nlp 基于特征嵌入的BERT训练

Nlp 基于特征嵌入的BERT训练,nlp,pytorch,tokenize,transformer,Nlp,Pytorch,Tokenize,Transformer,将BERT模型中的标记化范式改为其他模式有意义吗?可能只是简单的单词标记化或字符级标记化?这取决于您的目标是什么。使用标准单词标记肯定会起作用,但许多单词最终会超出词汇表,这将导致模型性能不佳 从研究的角度来看,完全在字符级别上工作可能会很有趣:了解如何建模将学习如何单独分割文本,以及与标准标记化相比,这样的分割会是什么样子。不过,我不确定它在实际使用中是否会有好处。字符序列比子单词序列长得多,而BERT需要序列长度的二次记忆,这将不必要地减慢训练和推理速度。这是论文“放弃BERT的词条系统并用

将BERT模型中的标记化范式改为其他模式有意义吗?可能只是简单的单词标记化或字符级标记化?

这取决于您的目标是什么。使用标准单词标记肯定会起作用,但许多单词最终会超出词汇表,这将导致模型性能不佳


从研究的角度来看,完全在字符级别上工作可能会很有趣:了解如何建模将学习如何单独分割文本,以及与标准标记化相比,这样的分割会是什么样子。不过,我不确定它在实际使用中是否会有好处。字符序列比子单词序列长得多,而BERT需要序列长度的二次记忆,这将不必要地减慢训练和推理速度。

这是论文“放弃BERT的词条系统并用字符CNN代替”背后的动机之一(就像在ELMo中一样)。通过这种方式,字级标记化可以在没有任何OOV问题的情况下使用(因为模型关注每个标记的字符),并且模型为任何任意输入标记生成单个嵌入

就性能而言,本文表明CharacterBERT通常至少与BERT一样好,同时对有噪声的文本更具鲁棒性