Machine learning 如何在BERT中创建标记嵌入?

Machine learning 如何在BERT中创建标记嵌入?,machine-learning,nlp,word-embedding,Machine Learning,Nlp,Word Embedding,在中,有一段是关于字词嵌入的 我们使用字词嵌入(Wu等人。, 2016)拥有30000个代币词汇。第一 每个序列的标记都是一个特殊的分类 令牌([CLS])。最终隐藏状态 与此令牌相对应的被用作聚合 分类的序列表示法 任务。句子对被组合成一个句子 单一序列。我们在句子中区分不同的句子 两种方式。首先,我们用一种特殊的方法将它们分开 代币([SEP])。其次,我们添加了一个学习嵌入 指向每个指示其是否属于的标记 到句子A或句子B。如图1所示, 我们将输入嵌入表示为E,即最终隐藏 特殊[CLS]标记

在中,有一段是关于字词嵌入的

我们使用字词嵌入(Wu等人。, 2016)拥有30000个代币词汇。第一 每个序列的标记都是一个特殊的分类 令牌([CLS])。最终隐藏状态 与此令牌相对应的被用作聚合 分类的序列表示法 任务。句子对被组合成一个句子 单一序列。我们在句子中区分不同的句子 两种方式。首先,我们用一种特殊的方法将它们分开 代币([SEP])。其次,我们添加了一个学习嵌入 指向每个指示其是否属于的标记 到句子A或句子B。如图1所示, 我们将输入嵌入表示为E,即最终隐藏 特殊[CLS]标记的向量为C2 RH, 以及第i个输入标记的最终隐藏向量 如Ti 2 RH。 对于给定的令牌,其输入表示为 通过对相应的标记求和来构造, 段和位置嵌入。想象 图2显示了这种结构的基本原理。


据我所知,WordPiece将单词拆分为“我喜欢游泳”之类的单词,但它不会生成嵌入。但我在论文和其他资料中没有发现这些令牌嵌入是如何生成的。他们是否在实际的预培训前进行了预培训?怎么用?或者它们是随机初始化的

单词块分别进行训练,这样最频繁的单词保持在一起,不太频繁的单词最终被拆分为字符

嵌入将与其他BERT一起进行训练。反向传播是通过所有层进行的,直到嵌入件,嵌入件与网络中的任何其他参数一样得到更新

请注意,只有实际存在于培训批处理中的令牌嵌入得到更新,其余的保持不变。这也是为什么您需要相对较小的单词词汇量的原因,以便在培训过程中,所有嵌入都能得到足够频繁的更新