Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Neural network 为什么我们需要更大的向量空间来显示单词嵌入模型中的关系?_Neural Network_Word2vec_Word Embedding_Vector Space - Fatal编程技术网

Neural network 为什么我们需要更大的向量空间来显示单词嵌入模型中的关系?

Neural network 为什么我们需要更大的向量空间来显示单词嵌入模型中的关系?,neural-network,word2vec,word-embedding,vector-space,Neural Network,Word2vec,Word Embedding,Vector Space,我正在研究单词嵌入,对单词向量的维数有点困惑。我的意思是,以word2vec为例,我的问题是为什么我们应该使用100个隐藏神经元作为我们的隐藏层?这个数字背后有什么意义或逻辑吗?或者,如果它是任意的,为什么不是300?还是10?为什么不多多少少?众所周知,显示向量的最简单方法是在二维空间(仅X和Y)上,为什么要显示更多维?我阅读了一些关于它的参考资料,在一个例子中,他们选择了100个维度,在另一个例子中,他们选择了其他数字,比如150、200、80等等 我知道数字越大,显示单词之间关系的空间就越

我正在研究单词嵌入,对单词向量的维数有点困惑。我的意思是,以word2vec为例,我的问题是为什么我们应该使用100个隐藏神经元作为我们的隐藏层?这个数字背后有什么意义或逻辑吗?或者,如果它是任意的,为什么不是300?还是10?为什么不多多少少?众所周知,显示向量的最简单方法是在二维空间(仅X和Y)上,为什么要显示更多维?我阅读了一些关于它的参考资料,在一个例子中,他们选择了100个维度,在另一个例子中,他们选择了其他数字,比如150、200、80等等


我知道数字越大,显示单词之间关系的空间就越大,但是我们不能在二维向量空间(只有X和Y)上显示关系?!为什么我们需要更大的空间?每个单词都由一个向量显示,所以当我们可以在2维或3维空间上显示向量时,为什么我们必须使用高维空间呢?然后使用类似于余弦的技术来寻找2或3维上的相似性比100维上的相似性更简单(从计算时间的角度来看),对吗。。如果只是显示向量是你的最终游戏,你可以使用2维或3维向量,这将是最好的

通常在NLP中,我们有定义良好的任务,如标记、解析、理解含义等。出于所有这些目的,高维向量的性能总是优于二维、三维向量。因为它有更多的自由度来捕捉你所追求的关系。您可以通过它们包含更丰富的信息

使用类似于余弦的技术来寻找2或3维上的相似性比100维上的相似性更简单(从计算时间的角度来看),对吗?


不。这意味着添加2个数字比添加100个数字更简单。方法(consine distance)完全相同。

我想投票,但你的答案的后半部分不是错了吗?在两个大小为300的向量上运行余弦距离将需要比在两个大小为3的向量上运行余弦距离多100倍的CPU操作。因此,就像添加300个数字而不是添加3个数字一样,需要付出100倍的努力。(OP问的是计算时间,所以“更简单”的意思是“更快”。)哈哈。。那我们为什么要轻松地使用大O符号呢?根据你的逻辑,O(100N)比O(3N)要付出100倍的努力:-)要有足够的空间来学习单词之间的关系,200-400维是必要的邪恶。三维空间是不可能的。单个余弦相似性计算是O(d),其中d是维度数。在一组N个单词中,在d维空间中,找到最近的单词是O(Nd),当N远大于d时,可以近似为O(N)。但是,我要说的是,Shayan没有问计算复杂性,他问的是计算时间。当d为300时,所需时间比d为3时多100倍。(当然是在单个核上!)单个余弦相似性计算是O(1),而不是O(d)。尺寸是恒定的,最多1000。如果将其增加到500以上,则性能会恶化。另外,他的问题的重点不是计算时间。再读一遍他的问题。他问我们为什么不使用更小的尺寸。