R 随机林的预测性能：排列或运行不带排列变量的模型之间是否存在差异？_R_Performance_Random Forest

R 随机林的预测性能：排列或运行不带排列变量的模型之间是否存在差异？

r performance

R 随机林的预测性能：排列或运行不带排列变量的模型之间是否存在差异？,r,performance,random-forest,R,Performance,Random Forest,我正在使用R包“ModelMap”生成随机森林（RF）模型（回归模型）。它提供了一个显示输入变量相对重要性的曲线图，通过测量输入变量xy在置换=消除其预测能力后的MSE（以输入变量xy的模型整体精度的%为单位）的降低。另一个图显示了基于使用测试数据（预测值与观察值）的模型验证的模型RMSE 现在，让我们生成另一个RF模型，不包括上述输入变量xy，并将RMSE与第一个模型的RMSE进行比较。结果几乎为0（单位为每ca 300 kg/ha），尽管先前模型的MSE下降表明变量xy下降了70%，但排除变

我正在使用R包“ModelMap”生成随机森林（RF）模型（回归模型）。它提供了一个显示输入变量相对重要性的曲线图，通过测量输入变量xy在置换=消除其预测能力后的MSE（以输入变量xy的模型整体精度的%为单位）的降低。另一个图显示了基于使用测试数据（预测值与观察值）的模型验证的模型RMSE

现在，让我们生成另一个RF模型，不包括上述输入变量xy，并将RMSE与第一个模型的RMSE进行比较。结果几乎为0（单位为每ca 300 kg/ha），尽管先前模型的MSE下降表明变量xy下降了70%，但排除变量xy应会导致性能下降

这种方法有意义吗？如果是，为什么第二个模型具有相同的预测性能

谢谢你的帮助

听起来你的模型不可推广。或者你有高度相关的预测因子——参见Strobl等人（2007年），我也投票选择了CVD。有人知道在排列变量后，模型是否被复制（包括被消除的变量xy），或者被排列的变量是否被用于同一模型的决策@Alex感谢您的评论，数据是不相关的，但是通过排除一些预测变量，模型运行良好！你说CV是什么意思？VI是通过排列后沿树向下运行观察值来计算的。不删除任何变量，谢谢Alex。我认为这解释了我的问题，因为比较（I）某个变量与（ii）模型的RMSE（排除相同变量）后MSE的增加的方法没有意义，因为后一个模型是在没有PV的情况下构建的，并且首先使用PV，因此根本不具有可比性。听起来你的模型是不可推广的。或者你有高度相关的预测因子——参见Strobl等人（2007年），我也投票选择了CVD。有人知道在排列变量后，模型是否被复制（包括被消除的变量xy），或者被排列的变量是否被用于同一模型的决策@Alex感谢您的评论，数据是不相关的，但是通过排除一些预测变量，模型运行良好！你说CV是什么意思？VI是通过排列后沿树向下运行观察值来计算的。不删除任何变量，谢谢Alex。我认为这解释了我的问题，因为比较（I）某个变量与（ii）模型的RMSE（排除相同变量）后MSE增加的方法是没有意义的，因为后一个模型是在没有PV的情况下构建的，并且首先与PV进行比较，因此根本不具有可比性。