Logging 原始数据和对数变换数据的线性回归即使在反变换后也有不同的系数,这是为什么?

Logging 原始数据和对数变换数据的线性回归即使在反变换后也有不同的系数,这是为什么?,logging,scale,transformation,coefficients,interpretation,Logging,Scale,Transformation,Coefficients,Interpretation,我正在处理一个相对较大的数据集(n=450)。因为结果变量的分布是右偏的,所以我尝试对数据进行日志转换以使其更正常,并使结果分布正常化。我的结果变量是连续的。我的预测变量是分类/二进制的 我首先对连续结果变量进行了二元预测变量的简单线性回归(使用lm()函数),预测结果在统计学上具有显著性(p=0.066),斜率或b系数为52.83 然后,我使用log()函数对结果数据进行日志转换,并对现在进行日志转换的连续结果变量再次运行二进制预测变量的简单线性回归。结果显示具有统计学意义(p=0.02),斜

我正在处理一个相对较大的数据集(n=450)。因为结果变量的分布是右偏的,所以我尝试对数据进行日志转换以使其更正常,并使结果分布正常化。我的结果变量是连续的。我的预测变量是分类/二进制的

我首先对连续结果变量进行了二元预测变量的简单线性回归(使用lm()函数),预测结果在统计学上具有显著性(p=0.066),斜率或b系数为52.83

然后,我使用log()函数对结果数据进行日志转换,并对现在进行日志转换的连续结果变量再次运行二进制预测变量的简单线性回归。结果显示具有统计学意义(p=0.02),斜率或b系数为0.1524。我使用exp()函数将b系数反变换为原始结果量表,但结果是1.164,接近52.83,这是我使用原始量表中的结果数据得到的斜率

有人能帮我解释一下,为什么在对结果变量进行原始比例的简单线性回归和对数变换后,我得到了如此不同的斜率值

有人能为我解释哪一组结果提供一些指导吗?鉴于我的样本量大于30,我是否可以应用中心极限定理,仅以原始量表解释结果数据的结果?即使我的结果分布是右偏的,日志转换也是必要的吗


谢谢大家!

您指定的模型将成为级别日志模型。假设有一个预测因子(X)和一个因变量(y)以及截距(a),则新的模型形式为: