Nlp 词嵌入中的缺失词

Nlp 词嵌入中的缺失词,nlp,word2vec,word-embedding,Nlp,Word2vec,Word Embedding,如果我有一个word2vec模型,并且我使用它将所有单词嵌入训练集和测试集中。但用恰当的话来说,在word2vec模型中并不包含。我可以随机选择一个向量作为所有正确单词的嵌入。 如果可以的话,请给我一些提示和一些参考资料。 谢谢你不清楚你在问什么;特别是你所说的恰当的词语是什么意思 但是,如果在培训后,您希望出现在模型中的单词不在模型中,这通常是由以下任一原因造成的: 1您如何对语料库进行预处理/标记化的问题,从而使您认为提供的单词不存在。因此,请仔细检查您要传递给培训的数据 2参数和期望不匹配

如果我有一个word2vec模型,并且我使用它将所有单词嵌入训练集和测试集中。但用恰当的话来说,在word2vec模型中并不包含。我可以随机选择一个向量作为所有正确单词的嵌入。 如果可以的话,请给我一些提示和一些参考资料。
谢谢你

不清楚你在问什么;特别是你所说的恰当的词语是什么意思

但是,如果在培训后,您希望出现在模型中的单词不在模型中,这通常是由以下任一原因造成的:

1您如何对语料库进行预处理/标记化的问题,从而使您认为提供的单词不存在。因此,请仔细检查您要传递给培训的数据

2参数和期望不匹配。例如,如果在某些word2vec库中以默认的最小计数5执行训练,则出现少于5次的任何单词都将被忽略,因此不会接收单词向量。这对于整体词向量质量来说通常是一件好事,因为低频词本身无法获得好的词向量,但是通过与其他词的交错,仍然可以轻微地干扰其他词的训练


通常,反复检查输入,启用日志记录并监视任何可疑的问题指标,并仔细检查培训后模型的内容,可以帮助推断出问题所在。

我认为,问题的作者的意思是,如果newswire的预训练单词嵌入应用于亚马逊上销售的产品之类的数据,那么预训练嵌入中缺少的许多单词又如何呢?与其为它们提供一个随机向量,不如忽略未知单词。但是如果你有一个语料库,里面有很多未知单词的例子,你可以训练你自己的向量。事实上,来自你自己领域语料库的词向量,如果足够大,可能比从其他语料库借用的词向量要好。Facebook的word2vec的FastText变体也可以比以前看不见的单词的随机向量、单词外片段向量更好地进行合成,因为共享词根或拼写错误可能表示一个“新”单词的意思。下面是指向这一点的链接,这正是我的意思。谢谢你支持我