Nlp Word2Vec中的维度来自哪里?

Nlp Word2Vec中的维度来自哪里?,nlp,neural-network,word2vec,word-embedding,Nlp,Neural Network,Word2vec,Word Embedding,我正在使用word2vec模型来训练神经网络,并构建一个神经嵌入来查找向量空间中的相似单词。但我的问题是关于单词和上下文嵌入(矩阵)中的维度,我们在训练开始时用随机数(向量)初始化它们,如下所示 假设我们想在图形上显示{书、纸、笔记本、小说}单词,首先我们应该建立一个矩阵,这个矩阵的维数是4x2、4x3或4x4等等,我知道矩阵的第一个维数是我们词汇的大小| v |。但是矩阵的第二维(向量的维数),例如这是单词“book”的向量[0.3,0.01,0.04],这些数字是什么?它们有什么意义吗?例如

我正在使用word2vec模型来训练神经网络,并构建一个神经嵌入来查找向量空间中的相似单词。但我的问题是关于单词和上下文嵌入(矩阵)中的维度,我们在训练开始时用随机数(向量)初始化它们,如下所示

假设我们想在图形上显示{书、纸、笔记本、小说}单词,首先我们应该建立一个矩阵,这个矩阵的维数是4x2、4x3或4x4等等,我知道矩阵的第一个维数是我们词汇的大小| v |。但是矩阵的第二维(向量的维数),例如这是单词“book”的向量[0.3,0.01,0.04],这些数字是什么?它们有什么意义吗?例如,与单词“book”和“paper”之间的关系有关的0.3数字在词汇表中,0.01表示书本与笔记本等的关系。
就像TF-IDF或共现矩阵一样,每个维度(列)Y都有一个含义——它是与第X行中的单词相关的单词或文档。

word2vec模型使用网络体系结构来表示输入单词和最有可能关联的输出单词

假设存在一个隐藏层(如问题中链接的示例),引入的两个矩阵表示权重和偏差,允许网络计算将输入向量(如链接示例中的“cat”)映射到输出向量(如“爬升”)的函数的内部表示

网络权重是输入和输出之间映射的子符号表示——任何单个权重本身并不一定表示任何有意义的东西。它是所有单元之间的连接权重(即所有权重的交互作用)这就是为什么神经网络通常被称为“黑箱”模型——很难解释它们为什么做出特定决策以及如何学习。因此,很难说向量[0.3,0.01,0.04]是什么准确地表示

传统上,网络权重初始化为随机值有两个主要原因:

  • 它可以防止在训练开始前向模型引入偏差
  • 它允许网络在初始化后从搜索空间的不同点开始(有助于减少局部极小值的影响)
  • 网络的学习能力对其权重的初始化方式非常敏感。目前有更先进的初始化权重的方法,例如


    初始化权重的方式和隐藏层的维度通常被称为超参数,通常根据启发式和问题空间的先验知识进行选择。

    我想知道同样的事情,并将其放入类似(1 0 0 0 0…)的向量中看看它最接近什么术语。答案是返回的结果似乎没有围绕任何特定的意义,只是有点随机。这是使用米科洛夫在谷歌新闻上训练的300维向量。
    在NNSE语义向量中查找一个向量空间,其中各个维度似乎具有特定的人类可理解的含义。

    感谢mark的回答。因此,您的意思是每个权重本身都没有意义,并且无法理解该向量[0.3,0.01,0.04]是什么与什么之间的联系,对吗?但是,矩阵W(词汇表矩阵或单词嵌入)的列应该有名称,对吗?就像我们词汇中的单词行一样。有人告诉我,每个维度(列)代表一个以某种方式描述单词的特征,但我不明白“特征”是什么意思?输入向量的加权和(即输入向量乘以权重矩阵中的特定列)表示一个“特征”,该特征可能是活跃的,取决于装置的激活功能。这些特征所代表的内容很难说清楚(如上所述)。这些是训练算法学习到的功能,使其能够区分一种情况或另一种情况。尽管对于CNN,您可以可视化单位检测到的功能,以进行图像输入(阅读了解更多信息).这是否类似于说人工智能所做的是人类所不知道的?向量中的数字无法计算?或者只是很难理解,在取得结果之前不应予以重视?如果是这样,那么word2vec的超参数调整只是巧合,取决于训练数据,而训练数据可能会因某些新数据而失败!请你问了很多有趣的问题!