Machine learning 可能性是在整个训练集上计算的还是在单个示例上计算的？_Machine Learning_Probability_Mle_Language Model

Machine learning 可能性是在整个训练集上计算的还是在单个示例上计算的？

machine-learning

Machine learning 可能性是在整个训练集上计算的还是在单个示例上计算的？,machine-learning,probability,mle,language-model,Machine Learning,Probability,Mle,Language Model,假设我有一个（x，y）对的训练集，其中x是输入示例，y是相应的目标，y是一个值（1…k）（k是类数）计算训练集的可能性时，是否应计算整个训练集（所有示例），即： L = P(y | x) = p(y1 | x1) * p(y2 | x2) * ... 或者是针对特定培训示例计算的可能性（x，y）我这么问是因为我看到了这些（第2页），他似乎在计算L_I，这是每个训练示例各自的可能性。似然函数描述了给定一些参数生成一组训练数据的概率，并可用于查找以最大概率生成训练数据的参数。您可以为训练数据的

假设我有一个

（x，y）

对的训练集，其中

是输入示例，

是相应的目标，

是一个值

（1…k）

（

是类数）

计算训练集的可能性时，是否应计算整个训练集（所有示例），即：

L = P(y | x) = p(y1 | x1) * p(y2 | x2) * ...

或者是针对特定培训示例计算的可能性

（x，y）

我这么问是因为我看到了这些（第2页），他似乎在计算L_I，这是每个训练示例各自的可能性。

似然函数描述了给定一些参数生成一组训练数据的概率，并可用于查找以最大概率生成训练数据的参数。您可以为训练数据的子集创建似然函数，但这不能表示整个数据的似然。然而，你能做的（在课堂讲稿中显然是无声地做的）是假设你的数据是真实的。因此，您可以将联合概率函数拆分为更小的部分，即

p（x |θ）=p（x1 |θ）*p（x2 |θ）*……

（基于独立性假设），并且您可以对这些部分中的每一部分使用具有相同参数（θ）的相同函数，例如正态分布（基于一致性假设）。然后可以使用对数将乘积转换为和，即

p（x |θ）=p（x1 |θ）+p（x2 |θ）+……

。该函数可以通过将其导数设置为零来最大化。得到的最大值是θ，它以最大概率创建x，即最大似然估计量。

谢谢@user3760780。在课堂讲稿中，

pi

（乘法）从1运行到k（类数），因此它不会在整个数据集上运行；对于每个训练示例（用L_i表示），似乎分别计算了可能性。我的问题是他为什么那样做。我想你说的是

Li（w1，…，wk）=log prod[k=1到k]（p（k | xi）^yik）

。在这种情况下，

p（k | xi）

应该计算生成标签

的概率，例如

xi

。由于

yik

对于每个错误的标签都是

，对于正确的标签是

，因此对于正确的标签，您会得到

p（k | xi）^1

，而对于所有其他标签，您只会得到

（无变化）。因此

Li

包含正确标签的概率，例如

，给定

xi

和权重

。之后，权重将根据单个示例进行更新，这是标准的。谢谢@user3760780，这正是我要问的部分。如果我理解正确，您会说，当应用随机梯度下降时，您只使用单个训练示例的可能性，而不是整个训练集？是的，您会根据一个示例或一小批示例（例如128个示例）的可能性梯度进行一步梯度下降。