Machine learning 回归树的对数变换因变量

Machine learning 回归树的对数变换因变量,machine-learning,regression,cross-validation,Machine Learning,Regression,Cross Validation,我有一个数据集,其中我发现依赖(目标)变量有一个倾斜分布-即有几个非常大的值和一个长尾 当我运行回归树时,将为大值观测创建一个端点节点,并为大多数其他观测创建一个端点节点 对因变量(目标变量)进行日志转换并将其用于回归树分析可以吗?当我尝试这一点时,我得到了一组不同的节点和分割,这些节点和分割似乎在每个桶中具有更均匀的观察分布。通过对数变换,预测值与观测值的Rsquare值也相当好。换句话说,我似乎通过日志转换获得了更好的测试和验证性能。 只是想确保当因变量具有倾斜分布时,日志转换是运行回归树的

我有一个数据集,其中我发现依赖(目标)变量有一个倾斜分布-即有几个非常大的值和一个长尾

当我运行回归树时,将为大值观测创建一个端点节点,并为大多数其他观测创建一个端点节点

对因变量(目标变量)进行日志转换并将其用于回归树分析可以吗?当我尝试这一点时,我得到了一组不同的节点和分割,这些节点和分割似乎在每个桶中具有更均匀的观察分布。通过对数变换,预测值与观测值的Rsquare值也相当好。换句话说,我似乎通过日志转换获得了更好的测试和验证性能。 只是想确保当因变量具有倾斜分布时,日志转换是运行回归树的一种可接受的方式


谢谢

是的。当目标变量具有偏态分布时,对其应用对数变换是完全正确的。也就是说,您需要在预测值的顶部应用反函数,以获得实际的预测目标值

此外,您已经测试过,通过转换,您可以获得更好的Rsquare误差估计。我假设您在使用指数函数反转日志后计算了RSquare

有关更多详细信息,请参阅,关于数据转换


请注意,如果培训数据包含任何负目标值,则无法直接应用日志转换。您可能需要应用其他一些可以接受负值的函数。

Sandeep的答案是正确的。需要明确的是,您无法比较这两个模型的性能指标。所以,仅仅因为你的R平方增加了,并不意味着它是一个更好的模型。要进行比较,需要将其中一个预测集转换为与另一个相同的尺度。因此,如果使用对数转换的目标变量优化模型,则需要使用exp()将预测映射回原始比例,然后比较度量。