R 具有偏态连续结果变量的随机森林回归分析

R 具有偏态连续结果变量的随机森林回归分析,r,regression,random-forest,skew,imbalanced-data,R,Regression,Random Forest,Skew,Imbalanced Data,我正在为一项研究编写预注册代码,在该研究中,我将进行随机森林回归分析(~200个预测因子),我预计我的连续结果变量将出现严重的偏差(由于数据仍在收集中,我不确定到什么程度) 为了解决这种偏差,我正在考虑(a)在进行常规随机森林回归分析之前使用SMOGN预处理数据,或(b)不预处理数据并进行泊松或负二项回归随机森林,这取决于数据的离散度(并可能考虑零通胀)。我的问题是: 是否有人对使用偏态结果变量进行随机森林回归有其他建议 是否有进行上述任何分析的包装或指南(最好是R) 任何帮助都将不胜感激!

我正在为一项研究编写预注册代码,在该研究中,我将进行随机森林回归分析(~200个预测因子),我预计我的连续结果变量将出现严重的偏差(由于数据仍在收集中,我不确定到什么程度)

为了解决这种偏差,我正在考虑(a)在进行常规随机森林回归分析之前使用SMOGN预处理数据,或(b)不预处理数据并进行泊松或负二项回归随机森林,这取决于数据的离散度(并可能考虑零通胀)。我的问题是:

  • 是否有人对使用偏态结果变量进行随机森林回归有其他建议

  • 是否有进行上述任何分析的包装或指南(最好是R)


  • 任何帮助都将不胜感激!谢谢大家!

    对于右长尾,您可以记录转换结果变量。