Math 谁能告诉我为什么我们在机器学习中总是使用高斯分布?

Math 谁能告诉我为什么我们在机器学习中总是使用高斯分布?,math,machine-learning,bayesian,gaussian,Math,Machine Learning,Bayesian,Gaussian,例如,我们总是假设数据或信号误差是高斯分布?为什么? 信号错误通常是许多独立错误的总和。例如,在CCD相机中,光子噪声、传输噪声、数字化噪声(可能更多)基本上是独立的,因此误差通常会由于噪声而呈正态分布 此外,将误差建模为正态分布通常使计算非常简单 数学题经常出不来 正态分布是很常见的。见尼基的答案 即使是非正态分布也常常被视为正态分布 分布偏差较大。是的,这是一个肮脏的黑客 第一点可能看起来很有趣,但我做了一些研究,研究的问题是非正态分布,数学变得非常复杂。在实践中,通常通过计算机模拟来“证明

例如,我们总是假设数据或信号误差是高斯分布?为什么?

信号错误通常是许多独立错误的总和。例如,在CCD相机中,光子噪声、传输噪声、数字化噪声(可能更多)基本上是独立的,因此误差通常会由于噪声而呈正态分布

此外,将误差建模为正态分布通常使计算非常简单

  • 数学题经常出不来

  • 正态分布是很常见的。见尼基的答案

  • 即使是非正态分布也常常被视为正态分布 分布偏差较大。是的,这是一个肮脏的黑客


  • 第一点可能看起来很有趣,但我做了一些研究,研究的问题是非正态分布,数学变得非常复杂。在实践中,通常通过计算机模拟来“证明定理”。

    你从数学头脑中得到的答案是“因为中心极限定理”。这表达了这样一种观点:当你从几乎任何分布中提取一组随机数,并将它们相加,你将得到近似正态分布的结果。你加在一起的数字越多,它的正态分布就越大

    我可以在Matlab/Octave中演示这一点。如果我生成1000个介于1和10之间的随机数并绘制一个直方图,我会得到如下结果

    如果我不生成一个随机数,而是生成12个随机数,然后将它们相加,这样做1000次,然后绘制一个直方图,我得到如下结果:

    我画了一个正态分布图,上面的均值和方差都相同,所以你可以知道这场比赛有多接近。您可以看到我用来生成这些图的代码

    在一个典型的机器学习问题中,您会遇到来自许多不同来源的错误(例如,测量错误、数据输入错误、分类错误、数据损坏…),并且认为所有这些错误的综合影响大致正常(当然,您应该始终检查!)

    对这个问题更务实的回答包括:

    • 因为它使数学更简单。正态分布的概率密度函数是二次函数的指数。取对数(就像你经常做的那样,因为你想最大化对数的可能性)会得到一个二次曲线。对此进行微分(找到最大值)可以得到一组线性方程,很容易解析求解

    • 很简单-整个分布由两个数字描述,均值和方差

    • 阅读您的代码/论文/报告的大多数人都很熟悉这一点

    这通常是一个很好的起点。如果你发现你的分布假设让你表现不佳,那么也许你可以尝试不同的分布。但是,您可能应该首先考虑其他提高模型性能的方法


    *技术点-它需要有有限的方差。

    高斯分布是最“自然”的分布。他们无处不在。下面列出了一些让我认为高斯分布是最自然的分布的特性:

    • nikie指出,几个随机变量(如骰子)的总和趋于高斯分布。(中心极限定理)
    • 机器学习中有两个自然的概念,标准差和最大熵原理。如果你问一个问题,“在所有标准偏差为1且平均值为0的分布中,最大熵的分布是什么?”答案是高斯分布
    • 在高维超球体内随机选择一个点。任何特定坐标的分布近似为高斯分布。对于超球体表面上的随机点也是如此
    • 从高斯分布中抽取几个样本。计算样本的离散傅里叶变换。结果呈高斯分布。我很确定高斯分布是唯一具有这种性质的分布
    • 傅里叶变换的特征函数是多项式和高斯的乘积
    • 微分方程y'=-xy的解是高斯分布。这一事实使得高斯函数的计算更容易。(高阶导数涉及埃尔米特多项式。)
    • 我认为高斯分布是唯一在乘法、卷积和线性变换下闭合的分布
    • 高斯问题的最大似然估计往往也是最小二乘解
    • 我认为随机微分方程的所有解都涉及高斯。(这主要是中心极限定理的结果
    • “正态分布是唯一绝对连续的分布,其前两个以外的累积量(即除均值和方差外)均为零。”-维基百科
    • 对于偶数n,Guassian的n阶矩只是一个整数乘以n次方的标准偏差
    • 许多其他标准分布与高斯分布密切相关(即二项分布、泊松分布、卡方分布、Student t分布、瑞利分布、逻辑分布、对数正态分布、超几何分布……)
    • “如果X1和X2是独立的,并且它们的和X1+X2是正态分布的,那么X1和X2也必须是正态的”——来自维基百科
    • “正态分布均值的共轭先验是另一个正态分布。”——来自维基百科
    • 当使用高斯时,数学更容易
    • Erdős–Kac定理意味着“随机”整数的素因子的分布是高斯分布
    • 随机分子的速度