Nlp Word2Vec中的维度来自哪里？_Nlp_Neural Network_Word2vec_Word Embedding

Nlp Word2Vec中的维度来自哪里？

nlp neural-network

Nlp Word2Vec中的维度来自哪里？,nlp,neural-network,word2vec,word-embedding,Nlp,Neural Network,Word2vec,Word Embedding,我正在使用word2vec模型来训练神经网络，并构建一个神经嵌入来查找向量空间中的相似单词。但我的问题是关于单词和上下文嵌入（矩阵）中的维度，我们在训练开始时用随机数（向量）初始化它们，如下所示假设我们想在图形上显示{书、纸、笔记本、小说}单词，首先我们应该建立一个矩阵，这个矩阵的维数是4x2、4x3或4x4等等，我知道矩阵的第一个维数是我们词汇的大小| v |。但是矩阵的第二维（向量的维数），例如这是单词“book”的向量[0.3,0.01,0.04]，这些数字是什么？它们有什么意义吗？例如

我正在使用word2vec模型来训练神经网络，并构建一个神经嵌入来查找向量空间中的相似单词。但我的问题是关于单词和上下文嵌入（矩阵）中的维度，我们在训练开始时用随机数（向量）初始化它们，如下所示

假设我们想在图形上显示{书、纸、笔记本、小说}单词，首先我们应该建立一个矩阵，这个矩阵的维数是4x2、4x3或4x4等等，我知道矩阵的第一个维数是我们词汇的大小| v |。但是矩阵的第二维（向量的维数），例如这是单词“book”的向量[0.3,0.01,0.04]，这些数字是什么？它们有什么意义吗？例如，与单词“book”和“paper”之间的关系有关的0.3数字在词汇表中，0.01表示书本与笔记本等的关系。

就像TF-IDF或共现矩阵一样，每个维度（列）Y都有一个含义——它是与第X行中的单词相关的单词或文档。

word2vec模型使用网络体系结构来表示输入单词和最有可能关联的输出单词

假设存在一个隐藏层（如问题中链接的示例），引入的两个矩阵表示权重和偏差，允许网络计算将输入向量（如链接示例中的“cat”）映射到输出向量（如“爬升”）的函数的内部表示

网络权重是输入和输出之间映射的子符号表示——任何单个权重本身并不一定表示任何有意义的东西。它是所有单元之间的连接权重（即所有权重的交互作用）这就是为什么神经网络通常被称为“黑箱”模型——很难解释它们为什么做出特定决策以及如何学习。因此，很难说向量[0.3,0.01,0.04]是什么准确地表示

传统上，网络权重初始化为随机值有两个主要原因：

它可以防止在训练开始前向模型引入偏差

它允许网络在初始化后从搜索空间的不同点开始（有助于减少局部极小值的影响）

网络的学习能力对其权重的初始化方式非常敏感。目前有更先进的初始化权重的方法，例如

初始化权重的方式和隐藏层的维度通常被称为超参数，通常根据启发式和问题空间的先验知识进行选择。

我想知道同样的事情，并将其放入类似（1 0 0 0 0…）的向量中看看它最接近什么术语。答案是返回的结果似乎没有围绕任何特定的意义，只是有点随机。这是使用米科洛夫在谷歌新闻上训练的300维向量。

在NNSE语义向量中查找一个向量空间，其中各个维度似乎具有特定的人类可理解的含义。

感谢mark的回答。因此，您的意思是每个权重本身都没有意义，并且无法理解该向量[0.3,0.01,0.04]是什么与什么之间的联系，对吗？但是，矩阵W（词汇表矩阵或单词嵌入）的列应该有名称，对吗？就像我们词汇中的单词行一样。有人告诉我，每个维度（列）代表一个以某种方式描述单词的特征，但我不明白“特征”是什么意思？输入向量的加权和（即输入向量乘以权重矩阵中的特定列）表示一个“特征”，该特征可能是活跃的，取决于装置的激活功能。这些特征所代表的内容很难说清楚（如上所述）。这些是训练算法学习到的功能，使其能够区分一种情况或另一种情况。尽管对于CNN，您可以可视化单位检测到的功能，以进行图像输入（阅读了解更多信息）.这是否类似于说人工智能所做的是人类所不知道的？向量中的数字无法计算？或者只是很难理解，在取得结果之前不应予以重视？如果是这样，那么word2vec的超参数调整只是巧合，取决于训练数据，而训练数据可能会因某些新数据而失败！请你问了很多有趣的问题！