Nlp 什么是'；话语向量&x27；在单词/句子中是什么意思？_Nlp_Words_Embedding

Nlp 什么是'；话语向量&x27；在单词/句子中是什么意思？

nlp

Nlp 什么是'；话语向量&x27；在单词/句子中是什么意思？,nlp,words,embedding,Nlp,Words,Embedding,当我阅读下面的文章时，我有一个问题：话语向量是什么。这个向量是如何构成的 S.Arora（TACL 2016）：基于PMI的单词嵌入的潜在变量模型方法 S.Arora（ICLR 2017）：一个简单但难以超越的句子嵌入基线在这篇文章中，它说， “话语向量代表正在谈论的内容” 但我不清楚总而言之，我的问题是话语载体意味着什么；是主题还是背景还是其他什么如果是这样，我们如何创建这个向量这个向量是如何学习的？还是已经修好了下面是Sanjeev Arora的论文《词义的线性代数结构及其在

当我阅读下面的文章时，我有一个问题：话语向量是什么。这个向量是如何构成的

S.Arora（TACL 2016）：基于PMI的单词嵌入的潜在变量模型方法
S.Arora（ICLR 2017）：一个简单但难以超越的句子嵌入基线

在这篇文章中，它说， “话语向量代表正在谈论的内容”

但我不清楚

总而言之，我的问题是

话语载体意味着什么；是主题还是背景还是其他什么

如果是这样，我们如何创建这个向量

这个向量是如何学习的？还是已经修好了

下面是Sanjeev Arora的论文《词义的线性代数结构及其在多义词中的应用》中的一段

它假设语料库中的每一点都有一个被称为语篇的微主题（“正在谈论什么”）从单位向量的连续体ℜD该模型的参数包括向量Vw∈ ℜd代表每个单词w。每个语篇“c”定义了单词Pr[w | c]的分布∝ exp（c·Vw）。该模型假设语料库是由c在单位球面上缓慢的几何随机游动生成的ℜd：当行走在c时，分布（2）中的i.i.d.样本会发出一些单词，由于其对数线性形式，在余弦相似性方面非常倾向于接近c的单词
每一篇文章都是主题。作者在论文中将主题固定在2000年
确定话语向量的一种方法是将相邻词向量的简单平均值作为估计值（MLE）。这种朴素的句子嵌入可以通过对相邻单词进行加权组合（通常是tf-idf）来改进
本文使用窗口中单词嵌入的加权平均值，对更频繁的单词（让人联想到tf idf）使用更小的权重，称为SIF嵌入，以更好地估计话语