Machine learning Word2Vec：维度数_Machine Learning_Nlp_Word2vec

Machine learning Word2Vec：维度数

machine-learning nlp

Machine learning Word2Vec：维度数,machine-learning,nlp,word2vec,Machine Learning,Nlp,Word2vec,我将Word2Vec与一个大约11000000个标记的数据集一起使用，以实现两个词的相似性（作为下游任务同义词提取的一部分），但我对Word2Vec应该使用多少维度没有很好的认识。是否有一个很好的启发式的尺寸范围考虑的令牌/句子的数量？ < P>典型区间为100-300之间。我想说你至少需要50天才能达到最低的准确度。如果拾取的标注数量较少，则将开始丢失高维空间的属性。如果培训时间对您的应用程序来说不是什么大问题，我会坚持使用200D维度，因为它提供了很好的特性。使用300D可获得极高的精度。3

我将Word2Vec与一个大约11000000个标记的数据集一起使用，以实现两个词的相似性（作为下游任务同义词提取的一部分），但我对Word2Vec应该使用多少维度没有很好的认识。是否有一个很好的启发式的尺寸范围考虑的令牌/句子的数量？

< P>典型区间为100-300之间。我想说你至少需要50天才能达到最低的准确度。如果拾取的标注数量较少，则将开始丢失高维空间的属性。如果培训时间对您的应用程序来说不是什么大问题，我会坚持使用200D维度，因为它提供了很好的特性。使用300D可获得极高的精度。300D之后，单词的特征不会有显著的改善，训练也会非常缓慢

我不知道高维空间中尺寸选择的理论解释和严格界限（可能没有独立于应用程序的解释），但我想请大家参考图2a，其中x轴表示矢量尺寸，y轴表示获得的精度。这应该为上述论点提供实证依据

我认为word2vec的维度数量取决于您的应用程序。最大经验值约为100。然后它可以很好地执行。

尺寸的数量反映了过度/不足的装配。100-300维是常识。从一个数字开始，检查测试集与训练集的准确性。尺寸越大，越容易在训练集中过度匹配，并且在测试中表现不佳。如果训练集的精度较高而测试集的精度较低，则需要调整此参数，这意味着尺寸太大，减小尺寸可能会解决模型的过拟合问题

您可以尝试使用100范围内的尺寸，例如100200300。这就是已经证明能产生良好效果的方法。请看，我想知道球体填充的结果和边界是否与此相关参考“手套：全局向量forWord表示法”当前在链接中不可访问，但它肯定可以在网络上的其他地方找到。这似乎是记录的版本：这里有一个学者搜索所有版本的论文：有没有经过200d训练的word2vec，我看到我们有200d的手套，但我们能用word2vec的手套吗？@Cyclomath，你说如果你选择较少的维度，“你将开始失去高维空间的属性”让我很感兴趣。你对我们一直到二维空间会是什么样子有什么期望吗？我试图解释我看到的，二维嵌入是从text8训练出来的。