Machine learning 何时在机器学习中使用生成算法？_Machine Learning_Normal Distribution_Logistic Regression_Generative Programming

Machine learning 何时在机器学习中使用生成算法？

machine-learning

Machine learning 何时在机器学习中使用生成算法？,machine-learning,normal-distribution,logistic-regression,generative-programming,Machine Learning,Normal Distribution,Logistic Regression,Generative Programming,假设我有一个由（x，y）样本组成的训练集为了应用生成算法，比如高斯判别法，我必须假设 p（x | y）~正常（mu，sigma）对于每个可能的sigma 或者我只需要知道如果给定y，x~Normal（mu，sigma）对于我来说，如果p（x | y）遵循多元正态分布足够好（达到一个阈值）来使用生成算法，我该如何评估呢？这是很多问题要应用生成算法，假设是高斯算法我必须假定这是有区别的 p（x | y）~每个可能的σ的正规（μ，σ）不，你必须假设这对μ，sigma对是正确的。实际上，你不知

假设我有一个由（x，y）样本组成的训练集

为了应用生成算法，比如高斯判别法，我必须假设

p（x | y）~正常（mu，sigma）

对于每个可能的sigma

或者我只需要知道如果给定y，

x~Normal（mu，sigma）

对于我来说，如果p（x | y）遵循多元正态分布足够好（达到一个阈值）来使用生成算法，我该如何评估呢？

这是很多问题

要应用生成算法，假设是高斯算法我必须假定这是有区别的

p（x | y）~每个可能的σ的正规（μ，σ）

不，你必须假设这对μ，sigma对是正确的。实际上，你不知道μ和σ是什么，所以你需要估计它（频率、最大似然/最大后验估计），或者更好地将参数估计的不确定性纳入预测（贝叶斯方法）

如果p（x | y）服从多元正态分布，我如何计算

经典地，使用拟合优度测试。但是，如果x的维数超过一小部分，这将不起作用，因为标准测试涉及存储箱中的项目数量，而高维中需要的存储箱数量是天文数字，因此预期计数非常低

一个更好的想法是这样说：我对x的（有条件）分布建模的选项是什么？可以使用模型比较技术在这些选项之间进行比较。阅读模型检查和比较

最后，你的最后一点：

足够好（达到一个阈值）让我使用生成算法吗

许多生成方法（例如Fisher线性判别分析以及Naive Bayes分类器）的矛盾之处在于，即使模型对数据不适用，分类器也可以很好地工作。没有特别合理的理由说明为什么会出现这种情况，但许多人观察到这在经验上是正确的。与假设的分布是否能很好地解释数据相比，可以更容易地检查它是否有效：只需将数据分为培训和测试，然后找出答案