Machine learning 最大似然估计到底意味着什么？_Machine Learning_Mle

Machine learning 最大似然估计到底意味着什么？

machine-learning

Machine learning 最大似然估计到底意味着什么？,machine-learning,mle,Machine Learning,Mle,当我们训练我们的模型时，我们通常使用MLE来估计我们的模型。我知道这意味着对于这样一个学习模型，最可能的数据是我们的训练集。但我想知道它的概率是否与1完全匹配？你几乎说对了。观测数据（X）的模型（theta）的可能性是观测X，给定theta： L(theta|X) = P(X|theta) 对于最大似然估计（MLE），选择提供最大p（X |θ）值的theta。这并不一定意味着观察到的X值是theta最大似然估计值。这只是意味着没有其他的theta值能够为X的观测值提供更高的概率换句话说，如果

当我们训练我们的模型时，我们通常使用MLE来估计我们的模型。我知道这意味着对于这样一个学习模型，最可能的数据是我们的训练集。但我想知道它的概率是否与1完全匹配？

你几乎说对了。观测数据（

）的模型（

theta

）的可能性是观测

，给定

theta

：

L(theta|X) = P(X|theta)

对于最大似然估计（MLE），选择提供最大p（X |θ）值的

theta

。这并不一定意味着观察到的

值是

theta

最大似然估计值。这只是意味着没有其他的

theta

值能够为

的观测值提供更高的概率

换句话说，如果

T1

是

theta

的最大似然估计，如果

T2

是

theta

的任何其他可能值，则

p（X | T1）>p（X | T2）

。然而，数据（

）可能还有另一个不同于观测数据（

）的值，因此

P（Y | T1）>P（X | T1）

对于

theta

的MLE估计值，

的概率不一定是1（并且可能永远不会是，除了轻微的情况）。这是意料之中的，因为

可以获取多个概率为非零的值。

您几乎完全正确。观测数据（

）的模型（

theta

）的可能性是观测

，给定

theta

：

L(theta|X) = P(X|theta)

对于最大似然估计（MLE），选择提供最大p（X |θ）值的

theta

。这并不一定意味着观察到的

值是

theta

最大似然估计值。这只是意味着没有其他的

theta

值能够为

的观测值提供更高的概率

换句话说，如果

T1

是

theta

的最大似然估计，如果

T2

是

theta

的任何其他可能值，则

p（X | T1）>p（X | T2）

。然而，数据（

）可能还有另一个不同于观测数据（

）的值，因此

P（Y | T1）>P（X | T1）

对于

theta

的MLE估计值，

的概率不一定是1（并且可能永远不会是，除了轻微的情况）。这是意料之中的，因为

可以取多个概率非零的值。

以bogatron举例所说的为基础，从MLE中学习到的参数可以最好地解释您所看到的数据（而不是其他数据）。不，概率不是1（除了在平凡的情况下）

作为一个例子（已经使用了数十亿次），MLE所做的是：

如果你有一个简单的抛硬币问题，你观察了5次抛硬币的结果（H，H，H，T，H），然后你做了MLE，你最终会给p（coin_toss==H）一个高概率（0.80），因为你看到正面的次数太多了。MLE有好有坏，很明显

优点：这是一个优化问题，所以通常很快就能解决（即使没有分析解决方案）。

缺点：当没有太多数据时（如我们的掷硬币示例），它可能会过拟合。

根据bogatron在示例中所说的话，从MLE中学习到的参数是最能解释您看到的数据（而不是其他）的参数。不，概率不是1（除了在平凡的情况下）

作为一个例子（已经使用了数十亿次），MLE所做的是：

优点：这是一个优化问题，所以通常解决起来相当快（即使没有解析解）。

缺点：当没有太多数据时（比如我们的掷硬币示例），它可能会过度拟合。

我在统计类中得到的示例如下：

嫌疑犯在逃！除了它们大约有1米80高之外，人们对它们一无所知。警察应该找男人还是女人

这里的想法是，您有一个模型参数（

M/F

），以及给定该参数的概率。有高个子男人，高个子女人，矮个子男人和矮个子女人。然而，在没有任何其他信息的情况下，男性为1m80的概率大于女性为1m80的概率。似然法（正如bogatron很好地解释的那样）是一种形式化方法，最大似然法是基于更可能导致实际观测的有利参数的估计方法

但这只是一个玩具的例子，只有一个二进制变量。。。让我们稍微扩展一下：我抛出了两个相同的骰子，它们的值之和是7。我的死有多少面？我们都知道两个D6加起来等于7的概率很高。但它也可能是D4，D20，D100。。。然而，

P（7 | 2D6）>P（7 | 2D20）

，和

P（7 | 2D6）>P（7 | 2D100）

，所以你可能会估计我的骰子是六面的。这并不意味着这是真的，但在没有任何额外信息的情况下，这是一个合理的估计

这更好，但我们还没有进入机器学习领域。。。让我们到达那里：如果你想在一些经验数据上拟合你的UpTrLIN层神经网络，你可以考虑所有可能的参数，以及它们中的每一个都有可能返回经验数据。那是在探索一个新的领域