R 解释.L、.Q、.C、.4…;logistic回归分析

R 解释.L、.Q、.C、.4…;logistic回归分析,r,ordinal,R,Ordinal,我在谷歌上做了大量的搜索,这些解释要么没有任何意义,要么他们说只是使用因子而不是顺序数据。我知道,``.L是线性的,.Q`是二次的。。。等等,但我不知道该怎么说。比如说 Primary.L 7.73502 0.984 Primary.Q 6.81674 0.400 Primary.C -4.07055 0.450 Primary^4 1.48845 0.600 其中第一列是变量,第二列是估计值,第三列是p值。当变量按

我在谷歌上做了大量的搜索,这些解释要么没有任何意义,要么他们说只是使用因子而不是顺序数据。我知道,``.L
是线性的,
.Q`是二次的。。。等等,但我不知道该怎么说。比如说

Primary.L     7.73502       0.984
Primary.Q     6.81674       0.400
Primary.C     -4.07055      0.450
Primary^4     1.48845       0.600
其中第一列是变量,第二列是估计值,第三列是p值。当变量按顺序增加时,我会怎么说?这基本上是说我将使用什么模型,所以这将是
7.73502x+6.81674x^2-4.07055x^3
这就是模型的原理吗?还是只包括二次型?所有这些都令人困惑。如果有人能解释这些
.L
.Q
.C
等等,那就太棒了

例子
>摘要(glm(相关年份,数据=HAVE,family=“二项式”))
电话:
glm(公式=相依年,家庭=“二项式”,数据=有)
偏差残差:
最小1季度中值3季度最大值
-0.3376  -0.2490  -0.2155  -0.1635   3.1802  
系数:
估计标准误差z值Pr(>z)
(截距)-3.572966 0.028179-126.798<2e-16***
年份L-2.212443 0.150295-14.721<2e-16***
年份Q-0.932844 0.162011-5.758.52e-09***
年份C 0.187344 0.156462 1.197 0.2312
第^4年-0.595352 0.147113-4.047 5.19e-05***
第^5年-0.027306 0.135214-0.202 0.8400
第^6年-0.023756 0.120969-0.196 0.8443
年份^7 0.079723 0.111786 0.713 0.4757
第^8年-0.080749 0.103615-0.779 0.4358
第^9年-0.117472 0.098423-1.194 0.2327
第^10年-0.134956 0.095098-1.419 0.1559
第^11年-0.106700 0.089791-1.188 0.2347
年份^12 0.102289 0.088613 1.154 0.2484
第^13年0.125736 0.084283 1.492 0.1357
第^14年-0.009941 0.084058-0.118 0.9059
第^15年-0.173013 0.088781-1.949 0.0513。
第^16年-0.146597 0.090398-1.6220.1049
---
签名。代码:0'***'0.001'***'0.01'*'0.05'.'0.1''1
(二项式族的离散参数取为1)
零偏差:80083自由度上的18687
剩余偏差:80067自由度上的18120
AIC:18154
Fisher评分迭代次数:7

该输出表明您的预测值
年份
是一个“有序因子”,这意味着R不仅将该变量内的观测值理解为不同的类别或组(即一个因子),而且当一个类别被视为大于另一个类别时,各个类别对其具有自然顺序

在这种情况下,R的默认值是拟合一系列多项式函数或与变量级别的对比度。第一个是线性(.L),第二个是二次(.Q),第三个是立方(.C),依此类推。R拟合的多项式函数比可用级别数少一个。因此,您的输出表明您的数据中有17个不同的年份

您可能会认为输出中的17个(计算截距)预测值是完全新的变量,所有这些变量都基于原始变量的顺序,因为R使用特殊值创建它们,使所有新预测值相互正交(即不相关、线性独立或不相关)

查看使用的值的一种方法是在模型对象上使用
model.matrix()
函数

model.matrix(glm(DEPENDENT ~ Year, data = HAVE, family = "binomial"))
如果您运行上述操作,您将在每个新变量列中发现一组重复的数字,其中重复的变化对应于您原来的
年份
预测值切换类别。特定值本身对您没有实际意义,因为它们是由R选择/计算的,以使所有对比度彼此线性独立

因此,R输出中的模型为:

logit(p)=-3.57+-2.21*年。L+-0.93*年。Q+…+-0.15*年^16

式中,p是存在感兴趣特征的概率,logit变换定义为记录的赔率,其中赔率=p/(1-p)和记录的赔率=ln(赔率)。因此logit(p)=ln(p/(1-p))

然后将特定贝塔测试的解释推广到:哪些对比显著地解释了因变量水平之间的差异?因为你的
Year.L
预测值显著且为负,这表明logit在不同年份呈线性下降趋势,并且因为你的
Year.Q
预测值显著且为负,这表明在不同年份的logit模式中可检测到去加速趋势。三阶多项式模型和四阶多项式模型(又称snap)。然而,我会停止围绕这个顺序和更高的顺序进行解释,因为它很快就会变得对实际的人来说毫无意义

类似地,对我来说,解释一个特定的贝塔估计值有点荒谬,但在特定对比度(如二次对比度)的给定水平下,你的结果中切换类别的几率与在该对比度的给定水平(如二次对比度)下,你的结果中切换类别的几率相比可能更大小于一个单位等于贝塔估计值的指数化优势比。对于你例子中的二次对比,优势比应该是
exp(-0.9328)
=0.3935,但我认为这有点荒谬,因为单位没有什么实际意义,因为它们是由R选择的,以使预测值彼此线性独立。因此,在这种情况下,我更倾向于对给定对比度测试的解释,而不是系数

为了进一步阅读,这里是加州大学洛杉矶分校精彩IDRE的一个网页,其中讨论了一个非常酷但激烈的堆栈交换
model.matrix(glm(DEPENDENT ~ Year, data = HAVE, family = "binomial"))