Nlp 添加Word2Vec嵌入列表是否给出了有意义的表示?

Nlp 添加Word2Vec嵌入列表是否给出了有意义的表示?,nlp,word2vec,embedding,language-model,Nlp,Word2vec,Embedding,Language Model,我使用预先训练好的word2vec模型(word2vec-google-news-300)来获取给定单词列表的嵌入。请注意,这不是我们在标记一个句子后得到的单词列表,它只是一个描述给定图像的单词列表 现在我想得到整个列表的一个向量表示。添加所有单个单词嵌入是否有意义?或者我应该考虑平均值吗? 另外,我希望向量的大小是恒定的,所以连接嵌入不是一个选项 如果有人能解释一下上述任何一种方法背后的直觉,那将非常有帮助。当有人在寻找一种超级简单的方法将一袋单词转换成一个固定长度的向量时,平均是最典型的 你

我使用预先训练好的word2vec模型(word2vec-google-news-300)来获取给定单词列表的嵌入。请注意,这不是我们在标记一个句子后得到的单词列表,它只是一个描述给定图像的单词列表

现在我想得到整个列表的一个向量表示。添加所有单个单词嵌入是否有意义?或者我应该考虑平均值吗? 另外,我希望向量的大小是恒定的,所以连接嵌入不是一个选项


如果有人能解释一下上述任何一种方法背后的直觉,那将非常有帮助。

当有人在寻找一种超级简单的方法将一袋单词转换成一个固定长度的向量时,平均是最典型的

你也可以试试简单的求和

但请注意,求和与平均值之间的关键区别在于平均值除以输入向量的数量。因此,它们都会产生一个指向完全相同的“方向”的向量,只是大小不同。而且,最常用的比较这些向量的方法,余弦相似性,是忽略大小的。因此,对于许多基于余弦相似性的方法,在以后比较向量时,求和与平均值会得到相同的结果

另一方面,如果你以其他方式比较向量,比如通过欧几里德距离,或者将它们输入其他分类器,总和与平均值可能会有所不同

类似地,在进行任何比较之前,有些人可能会尝试将所有向量的单位长度规格化。在使用前标准化之后,然后:

  • 欧几里德距离(最小到最大)和余弦相似性(最大到最小)将生成相同的最近邻列表
  • 平均值与总和将导致不同的结束方向——因为单位归一化将提高一些向量的大小,降低其他向量的大小,从而改变它们对平均值的相对贡献
你该怎么办?没有普遍正确的答案-取决于您的数据集和目标,以及下游步骤使用向量的方式,不同的选择可能会在您执行的最终质量/可取性评估中提供微小的优势。因此,尝试几种不同的排列方式以及不同的其他参数是很常见的

分别:

  • 早在2013年左右,
    GoogleNews
    媒介就在新闻文章上接受了培训;因此,它们的词义可能不是图像标记任务的最佳选择。如果你有足够的自己的数据,或者可以收集,训练自己的词向量可能会得到更好的结果。(使用特定领域的数据,以及根据您自己的评估调整培训参数的能力,都可以带来好处——特别是当您的领域是唯一的,或者标记不是典型的自然语言句子时。)
  • 还有其他方法可以为一系列标记创建单个摘要向量,而不仅仅是单词向量的算术组合。word2vec算法的一个小变化通常被称为
    Doc2Vec
    (或“段落向量”)——它也可能值得探索
  • 还有一些方法可以利用词向量来比较标记袋,这样就不会首先将标记袋折叠成一个固定长度的向量——虽然它们的计算成本更高,但有时比简单的余弦相似性提供更好的成对相似性/距离结果。一个这样的替代比较被称为“单词移动者的距离”——在某个点上,你可能也想试试

非常感谢您提供如此全面的答案。这真的很有用!