Machine learning Word2Vec:维度数

Machine learning Word2Vec:维度数,machine-learning,nlp,word2vec,Machine Learning,Nlp,Word2vec,我将Word2Vec与一个大约11000000个标记的数据集一起使用,以实现两个词的相似性(作为下游任务同义词提取的一部分),但我对Word2Vec应该使用多少维度没有很好的认识。是否有一个很好的启发式的尺寸范围考虑的令牌/句子的数量? < P>典型区间为100-300之间。我想说你至少需要50天才能达到最低的准确度。如果拾取的标注数量较少,则将开始丢失高维空间的属性。如果培训时间对您的应用程序来说不是什么大问题,我会坚持使用200D维度,因为它提供了很好的特性。使用300D可获得极高的精度。3

我将Word2Vec与一个大约11000000个标记的数据集一起使用,以实现两个词的相似性(作为下游任务同义词提取的一部分),但我对Word2Vec应该使用多少维度没有很好的认识。是否有一个很好的启发式的尺寸范围考虑的令牌/句子的数量?

< P>典型区间为100-300之间。我想说你至少需要50天才能达到最低的准确度。如果拾取的标注数量较少,则将开始丢失高维空间的属性。如果培训时间对您的应用程序来说不是什么大问题,我会坚持使用200D维度,因为它提供了很好的特性。使用300D可获得极高的精度。300D之后,单词的特征不会有显著的改善,训练也会非常缓慢


我不知道高维空间中尺寸选择的理论解释和严格界限(可能没有独立于应用程序的解释),但我想请大家参考图2a,其中x轴表示矢量尺寸,y轴表示获得的精度。这应该为上述论点提供实证依据

我认为word2vec的维度数量取决于您的应用程序。最大经验值约为100。然后它可以很好地执行。

尺寸的数量反映了过度/不足的装配。100-300维是常识。从一个数字开始,检查测试集与训练集的准确性。尺寸越大,越容易在训练集中过度匹配,并且在测试中表现不佳。如果训练集的精度较高而测试集的精度较低,则需要调整此参数,这意味着尺寸太大,减小尺寸可能会解决模型的过拟合问题

您可以尝试使用100范围内的尺寸,例如100200300。这就是已经证明能产生良好效果的方法。请看,我想知道球体填充的结果和边界是否与此相关参考“手套:全局向量forWord表示法”当前在链接中不可访问,但它肯定可以在网络上的其他地方找到。这似乎是记录的版本:这里有一个学者搜索所有版本的论文:有没有经过200d训练的word2vec,我看到我们有200d的手套,但我们能用word2vec的手套吗?@Cyclomath,你说如果你选择较少的维度,“你将开始失去高维空间的属性”让我很感兴趣。你对我们一直到二维空间会是什么样子有什么期望吗?我试图解释我看到的,二维嵌入是从text8训练出来的。