Machine learning 决策树（如C4.5）是否被视为非参数学习？_Machine Learning_Decision Tree

Machine learning 决策树（如C4.5）是否被视为非参数学习？

machine-learning

Machine learning 决策树（如C4.5）是否被视为非参数学习？,machine-learning,decision-tree,Machine Learning,Decision Tree,我对机器学习还比较陌生，我正试图将决策树归纳法引入到事物的大计划中。决策树（例如，使用C4.5或ID3构建的决策树）是参数的还是非参数的？我想，它们可能确实是参数化的，因为实际值的决策分割点可能由特征值的某些分布确定，例如平均值。但是，它们不具有必须保留所有原始训练数据的非参数特性（就像kNN一样）。术语“参数”指定义数据分布的参数。因为像C4.5这样的决策树没有对数据的分布做出假设，所以它们是非参数的。高斯最大似然分类（GMLC）是参数化的，因为它假设数据服从多元高斯分布（类的特征是均值和协方

我对机器学习还比较陌生，我正试图将决策树归纳法引入到事物的大计划中。决策树（例如，使用C4.5或ID3构建的决策树）是参数的还是非参数的？我想，它们可能确实是参数化的，因为实际值的决策分割点可能由特征值的某些分布确定，例如平均值。但是，它们不具有必须保留所有原始训练数据的非参数特性（就像kNN一样）。

术语“参数”指定义数据分布的参数。因为像C4.5这样的决策树没有对数据的分布做出假设，所以它们是非参数的。高斯最大似然分类（GMLC）是参数化的，因为它假设数据服从多元高斯分布（类的特征是均值和协方差）。关于你的最后一句话，保留训练数据（例如，基于实例的学习）并不是所有非参数分类器所共有的。例如，人工神经网络（ANN）被认为是非参数的，但它们不保留训练数据。

术语参数是指模型参数数量与数据之间的关系

如果参数数量固定，则模型是参数化的

如果参数的数量随着数据的增加而增加，则模型是非参数的

决策树是非参数的，但是如果您限制其大小以进行正则化，那么参数的数量也会被限制，并且可以认为是固定的。所以对于决策树来说，这不是很明确

KNN绝对是非参数的，因为参数集就是数据集：为了预测新的数据点，KNN模型需要访问训练数据点，而不需要其他任何东西（超参数K除外）。

不需要分布。您可以根据continuous属性的值对所有实例进行排序，然后在最大化信息增益的两个值之间进行分割。没有对数据的分布做出任何假设（即，没有假设数据是正态分布或其他分布）。决策树仍然是一个非参数分类器。即使您可以使用参数模型（例如，高斯分布）来选择潜在分支，但树生成的最终决策面通常不会对应于类的高斯分布（既不隐式也不显式）.这不太准确---你的解释在非正式意义上或多或少是正确的，但非参数模型的实际含义（与非参数测试不太一样，我认为你很困惑）是参数的数量和模型结构是由数据决定的，而不是事先固定的。参见贝叶斯非参数模型，其中假设数据服从分布，但参数的数量随着数据的增加而增加。不，对不起，我不是故意这么说的。由于树的结构由训练数据决定，因此它们是非参数的。然而，它并不像我上面提到的参数化概率分布=参数模型那么简单。正如@BenAllison提到的，参数模型和非参数模型的不同之处在于，模型的参数是固定的，而不是根据数据确定的，而不是模型对数据分布的假设。KNN不是参数“…参数是KNN中的数据”是什么意思？“希望你能把你的答案再扩展一点。”昌和康，例如，在线性回归中，我们使用学到的参数进行预测。在KNN模型中，我们使用最近的N个数据点进行预测。这就是它的意思，参数就是数据。我们不使用从训练数据中提取/学习的参数，而是直接使用训练数据进行预测。希望这有帮助。供参考：