Machine learning 使用单词嵌入时,处理缺失单词的最佳方法是什么?

Machine learning 使用单词嵌入时,处理缺失单词的最佳方法是什么?,machine-learning,nlp,deep-learning,word2vec,word-embedding,Machine Learning,Nlp,Deep Learning,Word2vec,Word Embedding,我有一套预先训练好的word2vec单词向量和一个语料库。我想用词向量来表示语料库中的词。语料库中有一些我没有训练过的词向量。处理没有预先训练向量的单词的最佳方法是什么 我听到了一些建议 对每个缺少的单词使用零向量 对每个缺失的单词使用一个随机数向量(以及一系列关于如何绑定这些随机数的建议) 我有一个想法:从所有预训练向量中取一个向量,其值是该位置所有值的平均值 任何有这个问题经验的人都会想到如何处理这个问题。Facebook的FastText将子单词n-grams中的单词向量组合起来,从而可以

我有一套预先训练好的word2vec单词向量和一个语料库。我想用词向量来表示语料库中的词。语料库中有一些我没有训练过的词向量。处理没有预先训练向量的单词的最佳方法是什么

我听到了一些建议

  • 对每个缺少的单词使用零向量

  • 对每个缺失的单词使用一个随机数向量(以及一系列关于如何绑定这些随机数的建议)

  • 我有一个想法:从所有预训练向量中取一个向量,其值是该位置所有值的平均值


  • 任何有这个问题经验的人都会想到如何处理这个问题。

    Facebook的FastText将子单词n-grams中的单词向量组合起来,从而可以处理词汇表外的单词。有关此方法的更多信息,请参见:

    在预先培训的
    word2vec
    嵌入矩阵中,通常可以使用word
    unk
    作为索引来查找预先设计的向量,该向量通常是最好的向量。

    您是否知道python代码的任何教程,其中介绍了如何在将权重传递到嵌入矩阵时,使用fasttext为缺少的词汇表创建向量。上面什么也找不到。