Machine learning 回归树的对数变换因变量_Machine Learning_Regression_Cross Validation

Machine learning 回归树的对数变换因变量

machine-learning

Machine learning 回归树的对数变换因变量,machine-learning,regression,cross-validation,Machine Learning,Regression,Cross Validation,我有一个数据集，其中我发现依赖（目标）变量有一个倾斜分布-即有几个非常大的值和一个长尾当我运行回归树时，将为大值观测创建一个端点节点，并为大多数其他观测创建一个端点节点对因变量（目标变量）进行日志转换并将其用于回归树分析可以吗？当我尝试这一点时，我得到了一组不同的节点和分割，这些节点和分割似乎在每个桶中具有更均匀的观察分布。通过对数变换，预测值与观测值的Rsquare值也相当好。换句话说，我似乎通过日志转换获得了更好的测试和验证性能。只是想确保当因变量具有倾斜分布时，日志转换是运行回归树的

我有一个数据集，其中我发现依赖（目标）变量有一个倾斜分布-即有几个非常大的值和一个长尾

当我运行回归树时，将为大值观测创建一个端点节点，并为大多数其他观测创建一个端点节点

对因变量（目标变量）进行日志转换并将其用于回归树分析可以吗？当我尝试这一点时，我得到了一组不同的节点和分割，这些节点和分割似乎在每个桶中具有更均匀的观察分布。通过对数变换，预测值与观测值的Rsquare值也相当好。换句话说，我似乎通过日志转换获得了更好的测试和验证性能。只是想确保当因变量具有倾斜分布时，日志转换是运行回归树的一种可接受的方式

谢谢

是的。当目标变量具有偏态分布时，对其应用对数变换是完全正确的。也就是说，您需要在预测值的顶部应用反函数，以获得实际的预测目标值

此外，您已经测试过，通过转换，您可以获得更好的Rsquare误差估计。我假设您在使用指数函数反转日志后计算了RSquare

有关更多详细信息，请参阅，关于数据转换

请注意，如果培训数据包含任何负目标值，则无法直接应用日志转换。您可能需要应用其他一些可以接受负值的函数。

Sandeep的答案是正确的。需要明确的是，您无法比较这两个模型的性能指标。所以，仅仅因为你的R平方增加了，并不意味着它是一个更好的模型。要进行比较，需要将其中一个预测集转换为与另一个相同的尺度。因此，如果使用对数转换的目标变量优化模型，则需要使用exp（）将预测映射回原始比例，然后比较度量。