Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 最大似然估计到底意味着什么?_Machine Learning_Mle - Fatal编程技术网

Machine learning 最大似然估计到底意味着什么?

Machine learning 最大似然估计到底意味着什么?,machine-learning,mle,Machine Learning,Mle,当我们训练我们的模型时,我们通常使用MLE来估计我们的模型。我知道这意味着对于这样一个学习模型,最可能的数据是我们的训练集。但我想知道它的概率是否与1完全匹配?你几乎说对了。观测数据(X)的模型(theta)的可能性是观测X,给定theta: L(theta|X) = P(X|theta) 对于最大似然估计(MLE),选择提供最大p(X |θ)值的theta。这并不一定意味着观察到的X值是theta最大似然估计值。这只是意味着没有其他的theta值能够为X的观测值提供更高的概率 换句话说,如果

当我们训练我们的模型时,我们通常使用MLE来估计我们的模型。我知道这意味着对于这样一个学习模型,最可能的数据是我们的训练集。但我想知道它的概率是否与1完全匹配?

你几乎说对了。观测数据(
X
)的模型(
theta
)的可能性是观测
X
,给定
theta

L(theta|X) = P(X|theta)
对于最大似然估计(MLE),选择提供最大p(X |θ)值的
theta
。这并不一定意味着观察到的
X
值是
theta
最大似然估计值。这只是意味着没有其他的
theta
值能够为
X
的观测值提供更高的概率

换句话说,如果
T1
theta
的最大似然估计,如果
T2
theta
的任何其他可能值,则
p(X | T1)>p(X | T2)
。然而,数据(
Y
)可能还有另一个不同于观测数据(
X
)的值,因此
P(Y | T1)>P(X | T1)


对于
theta
的MLE估计值,
X
的概率不一定是1(并且可能永远不会是,除了轻微的情况)。这是意料之中的,因为
X
可以获取多个概率为非零的值。

您几乎完全正确。观测数据(
X
)的模型(
theta
)的可能性是观测
X
,给定
theta

L(theta|X) = P(X|theta)
对于最大似然估计(MLE),选择提供最大p(X |θ)值的
theta
。这并不一定意味着观察到的
X
值是
theta
最大似然估计值。这只是意味着没有其他的
theta
值能够为
X
的观测值提供更高的概率

换句话说,如果
T1
theta
的最大似然估计,如果
T2
theta
的任何其他可能值,则
p(X | T1)>p(X | T2)
。然而,数据(
Y
)可能还有另一个不同于观测数据(
X
)的值,因此
P(Y | T1)>P(X | T1)


对于
theta
的MLE估计值,
X
的概率不一定是1(并且可能永远不会是,除了轻微的情况)。这是意料之中的,因为
X
可以取多个概率非零的值。

以bogatron举例所说的为基础,从MLE中学习到的参数可以最好地解释您所看到的数据(而不是其他数据)。不,概率不是1(除了在平凡的情况下)

作为一个例子(已经使用了数十亿次),MLE所做的是:

如果你有一个简单的抛硬币问题,你观察了5次抛硬币的结果(H,H,H,T,H),然后你做了MLE,你最终会给p(coin_toss==H)一个高概率(0.80),因为你看到正面的次数太多了。MLE有好有坏,很明显

优点:这是一个优化问题,所以通常很快就能解决(即使没有分析解决方案)。
缺点:当没有太多数据时(如我们的掷硬币示例),它可能会过拟合。

根据bogatron在示例中所说的话,从MLE中学习到的参数是最能解释您看到的数据(而不是其他)的参数。不,概率不是1(除了在平凡的情况下)

作为一个例子(已经使用了数十亿次),MLE所做的是:

如果你有一个简单的抛硬币问题,你观察了5次抛硬币的结果(H,H,H,T,H),然后你做了MLE,你最终会给p(coin_toss==H)一个高概率(0.80),因为你看到正面的次数太多了。MLE有好有坏,很明显

优点:这是一个优化问题,所以通常解决起来相当快(即使没有解析解)。
缺点:当没有太多数据时(比如我们的掷硬币示例),它可能会过度拟合。

我在统计类中得到的示例如下:

嫌疑犯在逃!除了它们大约有1米80高之外,人们对它们一无所知。警察应该找男人还是女人

这里的想法是,您有一个模型参数(
M/F
),以及给定该参数的概率。有高个子男人,高个子女人,矮个子男人和矮个子女人。然而,在没有任何其他信息的情况下,男性为1m80的概率大于女性为1m80的概率。似然法(正如bogatron很好地解释的那样)是一种形式化方法,最大似然法是基于更可能导致实际观测的有利参数的估计方法

但这只是一个玩具的例子,只有一个二进制变量。。。让我们稍微扩展一下:我抛出了两个相同的骰子,它们的值之和是7。我的死有多少面?我们都知道两个D6加起来等于7的概率很高。但它也可能是D4,D20,D100。。。然而,
P(7 | 2D6)>P(7 | 2D20)
,和
P(7 | 2D6)>P(7 | 2D100)
,所以你可能会估计我的骰子是六面的。这并不意味着这是真的,但在没有任何额外信息的情况下,这是一个合理的估计

这更好,但我们还没有进入机器学习领域。。。让我们到达那里:如果你想在一些经验数据上拟合你的UpTrLIN层神经网络,你可以考虑所有可能的参数,以及它们中的每一个都有可能返回经验数据。那是在探索一个新的领域