Machine learning 如何在BERT中创建标记嵌入？_Machine Learning_Nlp_Word Embedding

Machine learning 如何在BERT中创建标记嵌入？

machine-learning nlp

Machine learning 如何在BERT中创建标记嵌入？,machine-learning,nlp,word-embedding,Machine Learning,Nlp,Word Embedding,在中，有一段是关于字词嵌入的我们使用字词嵌入（Wu等人。， 2016）拥有30000个代币词汇。第一每个序列的标记都是一个特殊的分类令牌（[CLS]）。最终隐藏状态与此令牌相对应的被用作聚合分类的序列表示法任务。句子对被组合成一个句子单一序列。我们在句子中区分不同的句子两种方式。首先，我们用一种特殊的方法将它们分开代币（[SEP]）。其次，我们添加了一个学习嵌入指向每个指示其是否属于的标记到句子A或句子B。如图1所示，我们将输入嵌入表示为E，即最终隐藏特殊[CLS]标记

在中，有一段是关于字词嵌入的

我们使用字词嵌入（Wu等人。， 2016）拥有30000个代币词汇。第一每个序列的标记都是一个特殊的分类令牌（[CLS]）。最终隐藏状态与此令牌相对应的被用作聚合分类的序列表示法任务。句子对被组合成一个句子单一序列。我们在句子中区分不同的句子两种方式。首先，我们用一种特殊的方法将它们分开代币（[SEP]）。其次，我们添加了一个学习嵌入指向每个指示其是否属于的标记到句子A或句子B。如图1所示，我们将输入嵌入表示为E，即最终隐藏特殊[CLS]标记的向量为C2 RH，以及第i个输入标记的最终隐藏向量如Ti 2 RH。对于给定的令牌，其输入表示为通过对相应的标记求和来构造，段和位置嵌入。想象图2显示了这种结构的基本原理。

据我所知，WordPiece将单词拆分为“我喜欢游泳”之类的单词，但它不会生成嵌入。但我在论文和其他资料中没有发现这些令牌嵌入是如何生成的。他们是否在实际的预培训前进行了预培训？怎么用？或者它们是随机初始化的

单词块分别进行训练，这样最频繁的单词保持在一起，不太频繁的单词最终被拆分为字符

嵌入将与其他BERT一起进行训练。反向传播是通过所有层进行的，直到嵌入件，嵌入件与网络中的任何其他参数一样得到更新

请注意，只有实际存在于培训批处理中的令牌嵌入得到更新，其余的保持不变。这也是为什么您需要相对较小的单词词汇量的原因，以便在培训过程中，所有嵌入都能得到足够频繁的更新