Machine learning 使用单词嵌入时，处理缺失单词的最佳方法是什么？_Machine Learning_Nlp_Deep Learning_Word2vec_Word Embedding

Machine learning 使用单词嵌入时，处理缺失单词的最佳方法是什么？

machine-learning nlp deep-learning

Machine learning 使用单词嵌入时，处理缺失单词的最佳方法是什么？,machine-learning,nlp,deep-learning,word2vec,word-embedding,Machine Learning,Nlp,Deep Learning,Word2vec,Word Embedding,我有一套预先训练好的word2vec单词向量和一个语料库。我想用词向量来表示语料库中的词。语料库中有一些我没有训练过的词向量。处理没有预先训练向量的单词的最佳方法是什么我听到了一些建议对每个缺少的单词使用零向量对每个缺失的单词使用一个随机数向量（以及一系列关于如何绑定这些随机数的建议）我有一个想法：从所有预训练向量中取一个向量，其值是该位置所有值的平均值任何有这个问题经验的人都会想到如何处理这个问题。Facebook的FastText将子单词n-grams中的单词向量组合起来，从而可以

我有一套预先训练好的word2vec单词向量和一个语料库。我想用词向量来表示语料库中的词。语料库中有一些我没有训练过的词向量。处理没有预先训练向量的单词的最佳方法是什么

我听到了一些建议

对每个缺少的单词使用零向量

对每个缺失的单词使用一个随机数向量（以及一系列关于如何绑定这些随机数的建议）

我有一个想法：从所有预训练向量中取一个向量，其值是该位置所有值的平均值

任何有这个问题经验的人都会想到如何处理这个问题。

Facebook的FastText将子单词n-grams中的单词向量组合起来，从而可以处理词汇表外的单词。有关此方法的更多信息，请参见：

在预先培训的

word2vec

嵌入矩阵中，通常可以使用word

unk

作为索引来查找预先设计的向量，该向量通常是最好的向量。

您是否知道python代码的任何教程，其中介绍了如何在将权重传递到嵌入矩阵时，使用fasttext为缺少的词汇表创建向量。上面什么也找不到。