Nlp 伯特预训练:[9月]vs.段嵌入?

Nlp 伯特预训练:[9月]vs.段嵌入?,nlp,bert-language-model,Nlp,Bert Language Model,我对[SEP]标记的意图和在训练前应用于BERT输入的段嵌入之间的差异感到困惑 据我所知,[SEP]标记插入句子A和B之间,以使模型能够区分BERTs下一个句子预测预训练任务的两个句子。类似地,段嵌入被添加到输入嵌入中以改变输入,为模型创建了另一个机会来了解句子A和B是不同的东西 然而,这些似乎促进了同样的目的。为什么不能只对BERT进行段嵌入训练,而忽略[SEP]标记?[SEP]令牌在概念上提供了哪些额外信息,而段嵌入没有 此外,[SEP]代币无论如何都不会直接使用。NSP是在[CLS]嵌入上

我对[SEP]标记的意图和在训练前应用于BERT输入的段嵌入之间的差异感到困惑

据我所知,[SEP]标记插入句子A和B之间,以使模型能够区分BERTs下一个句子预测预训练任务的两个句子。类似地,段嵌入被添加到输入嵌入中以改变输入,为模型创建了另一个机会来了解句子A和B是不同的东西

然而,这些似乎促进了同样的目的。为什么不能只对BERT进行段嵌入训练,而忽略[SEP]标记?[SEP]令牌在概念上提供了哪些额外信息,而段嵌入没有

此外,[SEP]代币无论如何都不会直接使用。NSP是在[CLS]嵌入上训练的,据我所知,这在某种程度上代表了句子连续性的嵌入