Nlp 词嵌入中的缺失词_Nlp_Word2vec_Word Embedding

Nlp 词嵌入中的缺失词

nlp

Nlp 词嵌入中的缺失词,nlp,word2vec,word-embedding,Nlp,Word2vec,Word Embedding,如果我有一个word2vec模型，并且我使用它将所有单词嵌入训练集和测试集中。但用恰当的话来说，在word2vec模型中并不包含。我可以随机选择一个向量作为所有正确单词的嵌入。如果可以的话，请给我一些提示和一些参考资料。谢谢你不清楚你在问什么；特别是你所说的恰当的词语是什么意思但是，如果在培训后，您希望出现在模型中的单词不在模型中，这通常是由以下任一原因造成的： 1您如何对语料库进行预处理/标记化的问题，从而使您认为提供的单词不存在。因此，请仔细检查您要传递给培训的数据 2参数和期望不匹配

如果我有一个word2vec模型，并且我使用它将所有单词嵌入训练集和测试集中。但用恰当的话来说，在word2vec模型中并不包含。我可以随机选择一个向量作为所有正确单词的嵌入。如果可以的话，请给我一些提示和一些参考资料。

谢谢你

不清楚你在问什么；特别是你所说的恰当的词语是什么意思

但是，如果在培训后，您希望出现在模型中的单词不在模型中，这通常是由以下任一原因造成的：

1您如何对语料库进行预处理/标记化的问题，从而使您认为提供的单词不存在。因此，请仔细检查您要传递给培训的数据

2参数和期望不匹配。例如，如果在某些word2vec库中以默认的最小计数5执行训练，则出现少于5次的任何单词都将被忽略，因此不会接收单词向量。这对于整体词向量质量来说通常是一件好事，因为低频词本身无法获得好的词向量，但是通过与其他词的交错，仍然可以轻微地干扰其他词的训练

通常，反复检查输入，启用日志记录并监视任何可疑的问题指标，并仔细检查培训后模型的内容，可以帮助推断出问题所在。

我认为，问题的作者的意思是，如果newswire的预训练单词嵌入应用于亚马逊上销售的产品之类的数据，那么预训练嵌入中缺少的许多单词又如何呢？与其为它们提供一个随机向量，不如忽略未知单词。但是如果你有一个语料库，里面有很多未知单词的例子，你可以训练你自己的向量。事实上，来自你自己领域语料库的词向量，如果足够大，可能比从其他语料库借用的词向量要好。Facebook的word2vec的FastText变体也可以比以前看不见的单词的随机向量、单词外片段向量更好地进行合成，因为共享词根或拼写错误可能表示一个“新”单词的意思。下面是指向这一点的链接，这正是我的意思。谢谢你支持我