Nlp gensim word2vec单词嵌入如何为一个单词句子提取训练词对?

Nlp gensim word2vec单词嵌入如何为一个单词句子提取训练词对?,nlp,text-mining,gensim,word2vec,word-embedding,Nlp,Text Mining,Gensim,Word2vec,Word Embedding,请参阅下图(word2vec skipgram如何从输入句子中提取训练数据集和单词对的过程) 例如,“我爱你。”==>[(我,爱),(我,你)] 我可以问一下,当句子只有一个单词时,单词对是什么吗 是“快乐”吗 我在genism中测试了word2vec算法,当训练集中的句子中只有一个单词时(这个单词不包括在其他句子中),word2vec算法仍然可以为这个特定的单词构造一个嵌入向量。我不确定算法是如何做到这一点的 ===================更新====================

请参阅下图(word2vec skipgram如何从输入句子中提取训练数据集和单词对的过程)

例如,“我爱你。”==>[(我,爱),(我,你)]

我可以问一下,当句子只有一个单词时,单词对是什么吗

是“快乐”吗

我在genism中测试了word2vec算法,当训练集中的句子中只有一个单词时(这个单词不包括在其他句子中),word2vec算法仍然可以为这个特定的单词构造一个嵌入向量。我不确定算法是如何做到这一点的

===================更新===============================


正如下面的答案所示,我认为为单字句中的单词创建的单词嵌入向量只是神经网络权重的随机初始化。

单字句不可能进行单词2VEC训练,因为没有相邻单词可用作预测中心/目标单词的输入。基本上,这句话被跳过了

如果这是这个词在语料库中的唯一出现,并且你看到了这个词的一个向量,那么它只是开始随机初始化这个词,没有进一步的训练。(而且,您可能应该使用更高的
min_count
,因为在word2vec中保留这样的稀有词通常是一个错误:它们不会得到好的向量,如果从所有这些无法充分建模的稀有词中去除“噪波”,其他邻近词的向量将得到改善。)

如果这个一个单词的句子实际上出现在语料库中其他真实句子的旁边,那么将它与周围的文本结合起来是有意义的。对于这种来自环境建模的单词来说,实际的句子并没有什么神奇之处——该算法只是处理“邻居”,通常使用多个句子块作为文本进行训练,有时甚至标点符号(如句子结尾句点)也会保留为“单词”。然后,一个事实上独立的句子中的单词——但仍因出现在同一文档中而相互关联——将出现在彼此的上下文中