Nlp 在语言模型中,“theta”是什么意思?

Nlp 在语言模型中,“theta”是什么意思?,nlp,stanford-nlp,information-retrieval,n-gram,language-model,Nlp,Stanford Nlp,Information Retrieval,N Gram,Language Model,我知道如果X表示文本,pX表示文本的语言模型。通常,我们使用最大似然估计来估计语言模型。 但在许多情况下,我发现一个参数$\theta$用于表示语言模型。我不明白这个$\theta$的意思。 例如,对于集合中的文档d,$\theta$在“pd |$\theta$”中的作用是什么 $\theta$代表最大似然估计还是语言模型 有人能深入解释一下语言模型和$\theta$之间的区别吗 提前谢谢 \theta是一种传统的/标准的机器学习表示法,严格来说,它表示一组参数值,通常称为参数向量 符号PY |

我知道如果X表示文本,pX表示文本的语言模型。通常,我们使用最大似然估计来估计语言模型。 但在许多情况下,我发现一个参数$\theta$用于表示语言模型。我不明白这个$\theta$的意思。 例如,对于集合中的文档d,$\theta$在“pd |$\theta$”中的作用是什么

$\theta$代表最大似然估计还是语言模型

有人能深入解释一下语言模型和$\theta$之间的区别吗

提前谢谢

\theta是一种传统的/标准的机器学习表示法,严格来说,它表示一组参数值,通常称为参数向量

符号PY | X\θ应在y值时读取,例如,MNIST数字标签是根据x值预测的,例如,在经过训练的模型的帮助下,MNIST数字的输入图像是在注释的x,y对上训练的。此模型由\theta参数化。显然,如果训练算法改变,参数向量θ也会改变

这些参数向量的结构通常根据与之相关的模型进行解释,例如,对于多层神经网络,它们表示最初随机分配的实值向量,然后在每次迭代时通过梯度下降进行更新

对于基于单词生成的语言模型,它们指的是单词v跟在单词u后面的概率,这意味着每个元素都是哈希表中的一个条目,形式为u,v->countu.v/countu。 这些概率是从文档的训练集合C中学习的,因此它们基本上成为训练集的函数。对于不同的集合,这些概率值将不同

因此,通常的惯例是写Pw|n|p|w{n-1}\θ,这基本上表明这些单词的连续概率由θ参数化

类似的论点也适用于信息检索中的文档级语言模型,其中权重基本上表示从文档中抽取术语的概率