Machine learning 如何获取未知单词的随机word2vec向量?

Machine learning 如何获取未知单词的随机word2vec向量?,machine-learning,nlp,word2vec,Machine Learning,Nlp,Word2vec,我在train data上训练word2vec,但是有一些来自测试数据的单词不在train data中,因此如何生成与原始数据分布或数字范围相匹配的单词向量?您可以获取词汇表中的非频繁单词列表,并对其进行平均,以获得未知单词的近似单词向量 或 假设你的目标未知词是w,它在上下文c-2c-1wc1c2中,其中c-2,c-1,c1和c2是上下文词。您可以将所有上下文单词的平均嵌入量作为未知单词的良好近似值

我在train data上训练word2vec,但是有一些来自测试数据的单词不在train data中,因此如何生成与原始数据分布或数字范围相匹配的单词向量?

您可以获取词汇表中的非频繁单词列表,并对其进行平均,以获得未知单词的近似单词向量

假设你的目标未知词是w,它在上下文c-2c-1wc1c2中,其中c-2,c-1,c1和c2是上下文词。您可以将所有上下文单词的平均嵌入量作为未知单词的良好近似值