Machine learning 何时在机器学习中使用生成算法?

Machine learning 何时在机器学习中使用生成算法?,machine-learning,normal-distribution,logistic-regression,generative-programming,Machine Learning,Normal Distribution,Logistic Regression,Generative Programming,假设我有一个由(x,y)样本组成的训练集 为了应用生成算法,比如高斯判别法,我必须假设 p(x | y)~正常(mu,sigma)对于每个可能的sigma 或者我只需要知道如果给定y,x~Normal(mu,sigma) 对于我来说,如果p(x | y)遵循多元正态分布足够好(达到一个阈值)来使用生成算法,我该如何评估呢?这是很多问题 要应用生成算法,假设是高斯算法 我必须假定这是有区别的 p(x | y)~每个可能的σ的正规(μ,σ) 不,你必须假设这对μ,sigma对是正确的。实际上,你不知

假设我有一个由(x,y)样本组成的训练集

为了应用生成算法,比如高斯判别法,我必须假设

p(x | y)~正常(mu,sigma)
对于每个可能的sigma

或者我只需要知道如果给定y,
x~Normal(mu,sigma)


对于我来说,如果p(x | y)遵循多元正态分布足够好(达到一个阈值)来使用生成算法,我该如何评估呢?

这是很多问题

要应用生成算法,假设是高斯算法 我必须假定这是有区别的

p(x | y)~每个可能的σ的正规(μ,σ)

不,你必须假设这对μ,sigma对是正确的。实际上,你不知道μ和σ是什么,所以你需要估计它(频率、最大似然/最大后验估计),或者更好地将参数估计的不确定性纳入预测(贝叶斯方法)

如果p(x | y)服从多元正态分布,我如何计算

经典地,使用拟合优度测试。但是,如果x的维数超过一小部分,这将不起作用,因为标准测试涉及存储箱中的项目数量,而高维中需要的存储箱数量是天文数字,因此预期计数非常低

一个更好的想法是这样说:我对x的(有条件)分布建模的选项是什么?可以使用模型比较技术在这些选项之间进行比较。阅读模型检查和比较

最后,你的最后一点:

足够好(达到一个阈值)让我使用生成算法吗


许多生成方法(例如Fisher线性判别分析以及Naive Bayes分类器)的矛盾之处在于,即使模型对数据不适用,分类器也可以很好地工作。没有特别合理的理由说明为什么会出现这种情况,但许多人观察到这在经验上是正确的。与假设的分布是否能很好地解释数据相比,可以更容易地检查它是否有效:只需将数据分为培训和测试,然后找出答案

这是很多问题

要应用生成算法,假设是高斯算法 我必须假定这是有区别的

p(x | y)~每个可能的σ的正规(μ,σ)

不,你必须假设这对μ,sigma对是正确的。实际上,你不知道μ和σ是什么,所以你需要估计它(频率、最大似然/最大后验估计),或者更好地将参数估计的不确定性纳入预测(贝叶斯方法)

如果p(x | y)服从多元正态分布,我如何计算

经典地,使用拟合优度测试。但是,如果x的维数超过一小部分,这将不起作用,因为标准测试涉及存储箱中的项目数量,而高维中需要的存储箱数量是天文数字,因此预期计数非常低

一个更好的想法是这样说:我对x的(有条件)分布建模的选项是什么?可以使用模型比较技术在这些选项之间进行比较。阅读模型检查和比较

最后,你的最后一点:

足够好(达到一个阈值)让我使用生成算法吗


许多生成方法(例如Fisher线性判别分析以及Naive Bayes分类器)的矛盾之处在于,即使模型对数据不适用,分类器也可以很好地工作。没有特别合理的理由说明为什么会出现这种情况,但许多人观察到这在经验上是正确的。与假设的分布是否能很好地解释数据相比,可以更容易地检查它是否有效:只需将数据分为培训和测试,然后找出答案

这确实是一个很好的答案,我仍然需要弄清楚如何评估p(x | y)的分布——用Shapiro Wilk或其他什么东西。但是你给了我一个很好的解释和很好的提示!Tnx分配!这确实是一个很好的答案,我仍然需要弄清楚如何评估p(x | y)的分布——用Shapiro Wilk或其他什么东西。但是你给了我一个很好的解释和很好的提示!Tnx分配!