Machine learning 随机森林比线性回归更糟糕?这很正常,原因是什么?

Machine learning 随机森林比线性回归更糟糕?这很正常,原因是什么?,machine-learning,deep-learning,linear-regression,random-forest,Machine Learning,Deep Learning,Linear Regression,Random Forest,我试图使用机器学习来预测数据集。这是一个具有180个输入特征和1个连续值输出的回归问题。我试图比较深层神经网络、随机森林回归和线性回归 正如我所期望的,三层隐层深度神经网络的性能优于其他两种方法,均方根误差(RMSE)为0.1。然而,我意外地看到,随机林的性能甚至比线性回归差(RMSE 0.29 vs.0.27)。在我看来,随机林可以发现特征之间更复杂的依赖关系,以减少错误。我试图调整随机森林的参数(树的数量、最大特征、最大深度等)。我还尝试了不同的K交叉验证,但性能仍然低于线性回归 我在网上搜

我试图使用机器学习来预测数据集。这是一个具有180个输入特征和1个连续值输出的回归问题。我试图比较深层神经网络、随机森林回归和线性回归

正如我所期望的,三层隐层深度神经网络的性能优于其他两种方法,均方根误差(RMSE)为0.1。然而,我意外地看到,随机林的性能甚至比线性回归差(RMSE 0.29 vs.0.27)。在我看来,随机林可以发现特征之间更复杂的依赖关系,以减少错误。我试图调整随机森林的参数(树的数量、最大特征、最大深度等)。我还尝试了不同的K交叉验证,但性能仍然低于线性回归

我在网上搜索了一下,有一个答案说,如果特征对协变量有平滑的、近似线性的依赖,线性回归可能会表现得更好。我不完全明白这一点,因为如果是这样的话,深层神经网络不应该提供很多性能增益吗


我正在努力解释。在什么情况下,随机森林比线性回归差,但深层神经网络的性能要好得多?

如果您的特征解释了与目标变量的线性关系,那么线性模型通常比随机森林模型的性能好。这完全取决于特征之间的线性关系

也就是说,线性模型并不优越,或者随机森林并不优越

尝试使用
sciki learn
中的
MinMaxScaler()
缩放和转换数据,以查看线性模型是否进一步改进

专业提示

如果线性模型很有魅力,你需要问自己为什么?怎么做?并深入了解这两种模型的基础知识,以了解它为什么会对您的数据起作用。这些问题将引导您更好地使用功能工程师。事实上,Kaggle大师确实在堆叠中使用线性模型,通过捕获数据集中的线性关系来获得最高1%的分数


因此,最终,线性模型也会产生奇迹

我还尝试了不同的K交叉验证
。。。您不会交叉验证随机林,因为Breiman的算法已经在构建林时隐式交叉验证。您应该更新您的问题,了解您是如何实际运行随机林的,因为我怀疑您可能没有正确使用它。您可以在随机林回归器上报告
现成的
错误吗?这可能是比交叉验证更好的访问随机林性能的方法。我想这也是蒂姆的想法。如果您使用的是
sklearn
,则行李外错误已经是R^2的度量值。