Machine learning 可能性是在整个训练集上计算的还是在单个示例上计算的?

Machine learning 可能性是在整个训练集上计算的还是在单个示例上计算的?,machine-learning,probability,mle,language-model,Machine Learning,Probability,Mle,Language Model,假设我有一个(x,y)对的训练集,其中x是输入示例,y是相应的目标,y是一个值(1…k)(k是类数) 计算训练集的可能性时,是否应计算整个训练集(所有示例),即: L = P(y | x) = p(y1 | x1) * p(y2 | x2) * ... 或者是针对特定培训示例计算的可能性(x,y) 我这么问是因为我看到了这些(第2页),他似乎在计算L_I,这是每个训练示例各自的可能性。似然函数描述了给定一些参数生成一组训练数据的概率,并可用于查找以最大概率生成训练数据的参数。您可以为训练数据的

假设我有一个
(x,y)
对的训练集,其中
x
是输入示例,
y
是相应的目标,
y
是一个值
(1…k)
k
是类数)

计算训练集的可能性时,是否应计算整个训练集(所有示例),即:

L = P(y | x) = p(y1 | x1) * p(y2 | x2) * ...
或者是针对特定培训示例计算的可能性
(x,y)


我这么问是因为我看到了这些(第2页),他似乎在计算L_I,这是每个训练示例各自的可能性。

似然函数描述了给定一些参数生成一组训练数据的概率,并可用于查找以最大概率生成训练数据的参数。您可以为训练数据的子集创建似然函数,但这不能表示整个数据的似然。然而,你能做的(在课堂讲稿中显然是无声地做的)是假设你的数据是真实的。因此,您可以将联合概率函数拆分为更小的部分,即
p(x |θ)=p(x1 |θ)*p(x2 |θ)*……
(基于独立性假设),并且您可以对这些部分中的每一部分使用具有相同参数(θ)的相同函数,例如正态分布(基于一致性假设)。然后可以使用对数将乘积转换为和,即
p(x |θ)=p(x1 |θ)+p(x2 |θ)+……
。该函数可以通过将其导数设置为零来最大化。得到的最大值是θ,它以最大概率创建x,即最大似然估计量。

谢谢@user3760780。在课堂讲稿中,
pi
(乘法)从1运行到k(类数),因此它不会在整个数据集上运行;对于每个训练示例(用L_i表示),似乎分别计算了可能性。我的问题是他为什么那样做。我想你说的是
Li(w1,…,wk)=log prod[k=1到k](p(k | xi)^yik)
。在这种情况下,
p(k | xi)
应该计算生成标签
k
的概率,例如
xi
。由于
yik
对于每个错误的标签都是
0
,对于正确的标签是
1
,因此对于正确的标签,您会得到
p(k | xi)^1
,而对于所有其他标签,您只会得到
1
(无变化)。因此
Li
包含正确标签的概率,例如
i
,给定
xi
和权重
w
。之后,权重将根据单个示例进行更新,这是标准的。谢谢@user3760780,这正是我要问的部分。如果我理解正确,您会说,当应用随机梯度下降时,您只使用单个训练示例的可能性,而不是整个训练集?是的,您会根据一个示例或一小批示例(例如128个示例)的可能性梯度进行一步梯度下降。