Machine learning 生成、判别和参数、非参数算法/模型之间的差异

Machine learning 生成、判别和参数、非参数算法/模型之间的差异,machine-learning,modeling,generative,Machine Learning,Modeling,Generative,在这里,我发现了生成算法和判别算法的以下解释: “一种生成算法对数据的生成方式进行建模,以便对信号进行分类。它提出了一个问题:根据我的生成假设,哪个类别最有可能生成此信号 判别算法不关心数据是如何生成的,它只是对给定信号进行分类。” 是参数和非参数算法的定义 “参数:数据取自特定形式的概率分布,直至未知参数。 非参数:数据来自某一特定的非特定概率分布。 " 所以本质上我们可以说生成算法和参数算法假设基础模型,而判别算法和非参数算法不假设任何模型吗 谢谢。我想你说不出来。例如,线性回归是一种判别算

在这里,我发现了生成算法和判别算法的以下解释:

“一种生成算法对数据的生成方式进行建模,以便对信号进行分类。它提出了一个问题:根据我的生成假设,哪个类别最有可能生成此信号

判别算法不关心数据是如何生成的,它只是对给定信号进行分类。”

是参数和非参数算法的定义

“参数:数据取自特定形式的概率分布,直至未知参数。 非参数:数据来自某一特定的非特定概率分布。 "

所以本质上我们可以说生成算法和参数算法假设基础模型,而判别算法和非参数算法不假设任何模型吗


谢谢。

我想你说不出来。例如,线性回归是一种判别算法——你假设P(Y | X),然后直接从数据中估计参数,而不假设P(X)或P(X | Y),就像你在生成模型中所做的那样。但同时,基于线性回归的aby推断,包括参数的性质,是一种参数估计,因为有一个关于未观测到的错误行为的假设。

我认为你不能这么说。例如,线性回归是一种判别算法——你假设P(Y | X),然后直接从数据中估计参数,而不假设P(X)或P(X | Y),就像你在生成模型中所做的那样。但同时,基于线性回归的aby推断,包括参数的属性,是一种参数估计,因为存在未观察到的错误行为的假设。

假设您有输入X(可能是向量)和输出Y(可能是单变量)。你的目标是预测给定X的Y

生成方法使用联合概率p(X,Y)的模型来确定p(Y | X)。因此,给定一个具有已知参数的生成模型,可以从分布p(X,Y)中联合采样,以生成输入X和输出Y的新样本(注意,如果这样做,它们是根据假定的分布分布分布的,而不是真实的分布)。与此形成对比的是,区别性方法只有一个形式为p(Y | X)的模型。因此,通过输入X,他们可以对Y进行采样;但是,他们不能采样新的X

两者都假设一个模型。然而,区别性方法只假设Y如何依赖于X,而不依赖于X。生成性方法对两者都建模。因此,给定一个固定数量的参数,你可能会认为(很多人都有)使用它们来建模你关心的东西p(Y | X)比建模X的分布更容易,因为你总是会得到你想要知道Y的X

有用的参考资料:汤姆·明卡。Andrew Ng和迈克尔乔丹。

除非您有更多的统计经验,否则参数化模型和非参数化模型之间的区别可能会更难理解。无论观察到多少数据点,参数化模型都有固定且有限数量的参数。大多数概率分布是参数的:考虑变量Z,这是人的高度,假定是正态分布的。随着观察人数的增加,对参数\mu和\sigma(z的平均值和标准偏差)的估计变得更加准确,但仍然只有两个参数

相比之下,非参数模型中的参数数量会随着数据量的增加而增加。考虑诱导分布在人的高度上,在每个观察到的样品上放置一个正态分布,通过测量给出的平均值和固定的标准偏差。然后,新高度上的边际分布是正态分布的混合,并且混合成分的数量随着每个新数据点的增加而增加。这是人的身高的非参数模型。这个具体的例子称为核密度估计器。流行的(但更复杂的)非参数模型包括回归的高斯过程和狄里克莱过程

可以找到一个关于非参数的非常好的教程,它将中餐厅过程构造为有限混合模型的极限。

假设您有输入X(可能是向量)和输出Y(可能是单变量)。你的目标是预测给定X的Y

生成方法使用联合概率p(X,Y)的模型来确定p(Y | X)。因此,给定一个具有已知参数的生成模型,可以从分布p(X,Y)中联合采样,以生成输入X和输出Y的新样本(注意,如果这样做,它们是根据假定的分布分布分布的,而不是真实的分布)。与此形成对比的是,区别性方法只有一个形式为p(Y | X)的模型。因此,通过输入X,他们可以对Y进行采样;但是,他们不能采样新的X

两者都假设一个模型。然而,区别性方法只假设Y如何依赖于X,而不依赖于X。生成性方法对两者都建模。因此,给定一个固定数量的参数,你可能会认为(很多人都有)使用它们来建模你关心的东西p(Y | X)比建模X的分布更容易,因为你总是会得到你想要知道Y的X

有用的参考资料:汤姆·明卡。Andrew Ng和迈克尔乔丹。

除非您有更多的统计经验,否则参数化模型和非参数化模型之间的区别可能会更难理解。无论观察到多少数据点,参数化模型都有固定且有限数量的参数。大多数概率分布是参数的:考虑变量Z,这是人的高度,假定是正态分布的。当你观察到更多的人时,你对