Neural network 为什么我们需要更大的向量空间来显示单词嵌入模型中的关系？_Neural Network_Word2vec_Word Embedding_Vector Space

Neural network 为什么我们需要更大的向量空间来显示单词嵌入模型中的关系？

neural-network

Neural network 为什么我们需要更大的向量空间来显示单词嵌入模型中的关系？,neural-network,word2vec,word-embedding,vector-space,Neural Network,Word2vec,Word Embedding,Vector Space,我正在研究单词嵌入，对单词向量的维数有点困惑。我的意思是，以word2vec为例，我的问题是为什么我们应该使用100个隐藏神经元作为我们的隐藏层？这个数字背后有什么意义或逻辑吗？或者，如果它是任意的，为什么不是300？还是10？为什么不多多少少？众所周知，显示向量的最简单方法是在二维空间（仅X和Y）上，为什么要显示更多维？我阅读了一些关于它的参考资料，在一个例子中，他们选择了100个维度，在另一个例子中，他们选择了其他数字，比如150、200、80等等我知道数字越大，显示单词之间关系的空间就越

我正在研究单词嵌入，对单词向量的维数有点困惑。我的意思是，以word2vec为例，我的问题是为什么我们应该使用100个隐藏神经元作为我们的隐藏层？这个数字背后有什么意义或逻辑吗？或者，如果它是任意的，为什么不是300？还是10？为什么不多多少少？众所周知，显示向量的最简单方法是在二维空间（仅X和Y）上，为什么要显示更多维？我阅读了一些关于它的参考资料，在一个例子中，他们选择了100个维度，在另一个例子中，他们选择了其他数字，比如150、200、80等等

我知道数字越大，显示单词之间关系的空间就越大，但是我们不能在二维向量空间（只有X和Y）上显示关系？！为什么我们需要更大的空间？每个单词都由一个向量显示，所以当我们可以在2维或3维空间上显示向量时，为什么我们必须使用高维空间呢？然后使用类似于余弦的技术来寻找2或3维上的相似性比100维上的相似性更简单（从计算时间的角度来看），对吗。。如果只是显示向量是你的最终游戏，你可以使用2维或3维向量，这将是最好的

通常在NLP中，我们有定义良好的任务，如标记、解析、理解含义等。出于所有这些目的，高维向量的性能总是优于二维、三维向量。因为它有更多的自由度来捕捉你所追求的关系。您可以通过它们包含更丰富的信息

使用类似于余弦的技术来寻找2或3维上的相似性比100维上的相似性更简单（从计算时间的角度来看），对吗？

不。这意味着添加2个数字比添加100个数字更简单。方法（consine distance）完全相同。

我想投票，但你的答案的后半部分不是错了吗？在两个大小为300的向量上运行余弦距离将需要比在两个大小为3的向量上运行余弦距离多100倍的CPU操作。因此，就像添加300个数字而不是添加3个数字一样，需要付出100倍的努力。（OP问的是计算时间，所以“更简单”的意思是“更快”。）哈哈。。那我们为什么要轻松地使用大O符号呢？根据你的逻辑，O（100N）比O（3N）要付出100倍的努力：-）要有足够的空间来学习单词之间的关系，200-400维是必要的邪恶。三维空间是不可能的。单个余弦相似性计算是O（d），其中d是维度数。在一组N个单词中，在d维空间中，找到最近的单词是O（Nd），当N远大于d时，可以近似为O（N）。但是，我要说的是，Shayan没有问计算复杂性，他问的是计算时间。当d为300时，所需时间比d为3时多100倍。（当然是在单个核上！）单个余弦相似性计算是O（1），而不是O（d）。尺寸是恒定的，最多1000。如果将其增加到500以上，则性能会恶化。另外，他的问题的重点不是计算时间。再读一遍他的问题。他问我们为什么不使用更小的尺寸。