Python 线性回归与随机森林绩效精度
如果数据集包含一些特征,其中一些是分类变量,另一些是连续变量,则决策树优于线性回归,因为树可以根据分类变量准确地划分数据。有没有线性回归优于随机森林的情况?< P>肯定存在线性回归优于随机森林的情况,但我认为更重要的是模型的复杂性。Python 线性回归与随机森林绩效精度,python,data-science,Python,Data Science,如果数据集包含一些特征,其中一些是分类变量,另一些是连续变量,则决策树优于线性回归,因为树可以根据分类变量准确地划分数据。有没有线性回归优于随机森林的情况?< P>肯定存在线性回归优于随机森林的情况,但我认为更重要的是模型的复杂性。 线性模型的参数很少,随机森林的参数更多。这意味着随机森林比线性回归更容易过度拟合。与基于树的模型相比,线性模型的主要优点是: 它们可以外推(例如,如果标签在列车组中介于1-5之间,基于树的模型永远不会预测10,但线性模型会) 由于外推,可用于异常检测 可解释性(是
线性模型的参数很少,随机森林的参数更多。这意味着随机森林比线性回归更容易过度拟合。与基于树的模型相比,线性模型的主要优点是:
- 它们可以外推(例如,如果标签在列车组中介于1-5之间,基于树的模型永远不会预测10,但线性模型会)
- 由于外推,可用于异常检测
- 可解释性(是的,基于树的模型具有特征重要性,但它只是一个代理,线性模型中的权重更好)
- 需要较少的数据才能获得良好的结果
- 拥有强大的在线学习实施(Vowpal Wabbit),这对于处理具有许多功能(例如文本)的大型数据集至关重要