Machine learning 随机森林比线性回归更糟糕？这很正常，原因是什么？_Machine Learning_Deep Learning_Linear Regression_Random Forest

Machine learning 随机森林比线性回归更糟糕？这很正常，原因是什么？

machine-learning deep-learning

Machine learning 随机森林比线性回归更糟糕？这很正常，原因是什么？,machine-learning,deep-learning,linear-regression,random-forest,Machine Learning,Deep Learning,Linear Regression,Random Forest,我试图使用机器学习来预测数据集。这是一个具有180个输入特征和1个连续值输出的回归问题。我试图比较深层神经网络、随机森林回归和线性回归正如我所期望的，三层隐层深度神经网络的性能优于其他两种方法，均方根误差（RMSE）为0.1。然而，我意外地看到，随机林的性能甚至比线性回归差（RMSE 0.29 vs.0.27）。在我看来，随机林可以发现特征之间更复杂的依赖关系，以减少错误。我试图调整随机森林的参数（树的数量、最大特征、最大深度等）。我还尝试了不同的K交叉验证，但性能仍然低于线性回归我在网上搜

我试图使用机器学习来预测数据集。这是一个具有180个输入特征和1个连续值输出的回归问题。我试图比较深层神经网络、随机森林回归和线性回归

正如我所期望的，三层隐层深度神经网络的性能优于其他两种方法，均方根误差（RMSE）为0.1。然而，我意外地看到，随机林的性能甚至比线性回归差（RMSE 0.29 vs.0.27）。在我看来，随机林可以发现特征之间更复杂的依赖关系，以减少错误。我试图调整随机森林的参数（树的数量、最大特征、最大深度等）。我还尝试了不同的K交叉验证，但性能仍然低于线性回归

我在网上搜索了一下，有一个答案说，如果特征对协变量有平滑的、近似线性的依赖，线性回归可能会表现得更好。我不完全明白这一点，因为如果是这样的话，深层神经网络不应该提供很多性能增益吗

我正在努力解释。在什么情况下，随机森林比线性回归差，但深层神经网络的性能要好得多？

如果您的特征解释了与目标变量的线性关系，那么线性模型通常比随机森林模型的性能好。这完全取决于特征之间的线性关系

也就是说，线性模型并不优越，或者随机森林并不优越

尝试使用

sciki learn

中的

MinMaxScaler（）

缩放和转换数据，以查看线性模型是否进一步改进

专业提示

如果线性模型很有魅力，你需要问自己为什么？怎么做？并深入了解这两种模型的基础知识，以了解它为什么会对您的数据起作用。这些问题将引导您更好地使用功能工程师。事实上，Kaggle大师确实在堆叠中使用线性模型，通过捕获数据集中的线性关系来获得最高1%的分数

因此，最终，线性模型也会产生奇迹

我还尝试了不同的K交叉验证

。。。您不会交叉验证随机林，因为Breiman的算法已经在构建林时隐式交叉验证。您应该更新您的问题，了解您是如何实际运行随机林的，因为我怀疑您可能没有正确使用它。您可以在随机林回归器上报告

现成的错误吗？这可能是比交叉验证更好的访问随机林性能的方法。我想这也是蒂姆的想法。如果您使用的是sklearn
，则行李外错误已经是R^2的度量值。