Machine learning 决策树(如C4.5)是否被视为非参数学习?

Machine learning 决策树(如C4.5)是否被视为非参数学习?,machine-learning,decision-tree,Machine Learning,Decision Tree,我对机器学习还比较陌生,我正试图将决策树归纳法引入到事物的大计划中。决策树(例如,使用C4.5或ID3构建的决策树)是参数的还是非参数的?我想,它们可能确实是参数化的,因为实际值的决策分割点可能由特征值的某些分布确定,例如平均值。但是,它们不具有必须保留所有原始训练数据的非参数特性(就像kNN一样)。术语“参数”指定义数据分布的参数。因为像C4.5这样的决策树没有对数据的分布做出假设,所以它们是非参数的。高斯最大似然分类(GMLC)是参数化的,因为它假设数据服从多元高斯分布(类的特征是均值和协方

我对机器学习还比较陌生,我正试图将决策树归纳法引入到事物的大计划中。决策树(例如,使用C4.5或ID3构建的决策树)是参数的还是非参数的?我想,它们可能确实是参数化的,因为实际值的决策分割点可能由特征值的某些分布确定,例如平均值。但是,它们不具有必须保留所有原始训练数据的非参数特性(就像kNN一样)。

术语“参数”指定义数据分布的参数。因为像C4.5这样的决策树没有对数据的分布做出假设,所以它们是非参数的。高斯最大似然分类(GMLC)是参数化的,因为它假设数据服从多元高斯分布(类的特征是均值和协方差)。关于你的最后一句话,保留训练数据(例如,基于实例的学习)并不是所有非参数分类器所共有的。例如,人工神经网络(ANN)被认为是非参数的,但它们不保留训练数据。

术语参数是指模型参数数量与数据之间的关系

如果参数数量固定,则模型是参数化的

如果参数的数量随着数据的增加而增加,则模型是非参数的

决策树是非参数的,但是如果您限制其大小以进行正则化,那么参数的数量也会被限制,并且可以认为是固定的。所以对于决策树来说,这不是很明确


KNN绝对是非参数的,因为参数集就是数据集:为了预测新的数据点,KNN模型需要访问训练数据点,而不需要其他任何东西(超参数K除外)。

不需要分布。您可以根据continuous属性的值对所有实例进行排序,然后在最大化信息增益的两个值之间进行分割。没有对数据的分布做出任何假设(即,没有假设数据是正态分布或其他分布)。决策树仍然是一个非参数分类器。即使您可以使用参数模型(例如,高斯分布)来选择潜在分支,但树生成的最终决策面通常不会对应于类的高斯分布(既不隐式也不显式).这不太准确---你的解释在非正式意义上或多或少是正确的,但非参数模型的实际含义(与非参数测试不太一样,我认为你很困惑)是参数的数量和模型结构是由数据决定的,而不是事先固定的。参见贝叶斯非参数模型,其中假设数据服从分布,但参数的数量随着数据的增加而增加。不,对不起,我不是故意这么说的。由于树的结构由训练数据决定,因此它们是非参数的。然而,它并不像我上面提到的参数化概率分布=参数模型那么简单。正如@BenAllison提到的,参数模型和非参数模型的不同之处在于,模型的参数是固定的,而不是根据数据确定的,而不是模型对数据分布的假设。KNN不是参数“…参数是KNN中的数据”是什么意思?“希望你能把你的答案再扩展一点。”昌和康,例如,在线性回归中,我们使用学到的参数进行预测。在KNN模型中,我们使用最近的N个数据点进行预测。这就是它的意思,参数就是数据。我们不使用从训练数据中提取/学习的参数,而是直接使用训练数据进行预测。希望这有帮助。供参考: