Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/292.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 线性回归与随机森林绩效精度_Python_Data Science - Fatal编程技术网

Python 线性回归与随机森林绩效精度

Python 线性回归与随机森林绩效精度,python,data-science,Python,Data Science,如果数据集包含一些特征,其中一些是分类变量,另一些是连续变量,则决策树优于线性回归,因为树可以根据分类变量准确地划分数据。有没有线性回归优于随机森林的情况?< P>肯定存在线性回归优于随机森林的情况,但我认为更重要的是模型的复杂性。 线性模型的参数很少,随机森林的参数更多。这意味着随机森林比线性回归更容易过度拟合。与基于树的模型相比,线性模型的主要优点是: 它们可以外推(例如,如果标签在列车组中介于1-5之间,基于树的模型永远不会预测10,但线性模型会) 由于外推,可用于异常检测 可解释性(是

如果数据集包含一些特征,其中一些是分类变量,另一些是连续变量,则决策树优于线性回归,因为树可以根据分类变量准确地划分数据。有没有线性回归优于随机森林的情况?

< P>肯定存在线性回归优于随机森林的情况,但我认为更重要的是模型的复杂性。
线性模型的参数很少,随机森林的参数更多。这意味着随机森林比线性回归更容易过度拟合。

与基于树的模型相比,线性模型的主要优点是:

  • 它们可以外推(例如,如果标签在列车组中介于1-5之间,基于树的模型永远不会预测10,但线性模型会)
  • 由于外推,可用于异常检测
  • 可解释性(是的,基于树的模型具有特征重要性,但它只是一个代理,线性模型中的权重更好)
  • 需要较少的数据才能获得良好的结果
  • 拥有强大的在线学习实施(Vowpal Wabbit),这对于处理具有许多功能(例如文本)的大型数据集至关重要

目前我正在进行EDA,在我的数据集中,我有20个特征和8000个观察值。在20个特性中,我发现了5个特性,它们大部分与响应相关。我使用了普通最小二乘法,得到的调节器R平方为0.95。你能告诉我在这种情况下随机森林是否比线性回归更好吗?@SouravSaha这是一个你应该通过实验找到答案的问题。在我看来,应该首先尝试简单的模型,更复杂的模型应该根据它们与简单模型相比的表现来判断。所以,我想说的是,两种方法都试一下。完全同意@kutschkem的观点,找到答案的唯一方法是通过实验!机器学习是一个经验性的领域,很少有一套规则可以让我们说方法x总是比方法y好。