NLP:理解令牌ID 我进入NLP和神经机器翻译。我理解sentencepiece等如何将作品翻译成子词,并将子词翻译成标记ID。但这些令牌ID只是表示子字令牌的整数。这些ID实际上是如何与NLP模型一起使用的?

NLP:理解令牌ID 我进入NLP和神经机器翻译。我理解sentencepiece等如何将作品翻译成子词,并将子词翻译成标记ID。但这些令牌ID只是表示子字令牌的整数。这些ID实际上是如何与NLP模型一起使用的?,nlp,Nlp,标记ID是词汇表中的索引,在您的例子中是子词汇表中的索引 在网络训练期间,不会使用ID本身,而是将ID转换为向量 假设您正在输入三个单词,它们的ID分别为12、14和4。实际上,作为输入给出的是三个向量(比如n维向量),其中每个id映射到一个唯一的向量。这些向量可以是一个hot,即对于令牌Id 4和剩余零,索引4处的1,或者它们可以是预训练的嵌入

标记ID是词汇表中的索引,在您的例子中是子词汇表中的索引

在网络训练期间,不会使用ID本身,而是将ID转换为向量

假设您正在输入三个单词,它们的ID分别为12、14和4。实际上,作为输入给出的是三个向量(比如n维向量),其中每个id映射到一个唯一的向量。这些向量可以是一个hot,即对于令牌Id 4和剩余零,索引4处的1,或者它们可以是预训练的嵌入