R 当逻辑回归不能完全捕获数据时会发生什么?

R 当逻辑回归不能完全捕获数据时会发生什么?,r,splines,R,Splines,我已经建立了侵袭性(与惰性)复发性呼吸道乳头状瘤病的概率模型,作为诊断年龄的函数。一般来说,那些在5岁之前被诊断出患有攻击性疾病的人,有80%的概率会进行攻击性治疗。那些在10岁以后被诊断的人有大约30%的几率。在5年到10年之间,它介于两者之间。在所有三个年龄组中,似乎与年龄没有相关性(在年龄组的范围内) 看看逻辑回归想要使用的图表(开放圆),但看看我的手动线(虚线),它似乎更好地描述了正在发生的事情。我的x轴是诊断年龄的对数。y轴是侵袭性疾病的概率。如何对虚线进行建模?我想用我自己的,但我不

我已经建立了侵袭性(与惰性)复发性呼吸道乳头状瘤病的概率模型,作为诊断年龄的函数。一般来说,那些在5岁之前被诊断出患有攻击性疾病的人,有80%的概率会进行攻击性治疗。那些在10岁以后被诊断的人有大约30%的几率。在5年到10年之间,它介于两者之间。在所有三个年龄组中,似乎与年龄没有相关性(在年龄组的范围内)

看看逻辑回归想要使用的图表(开放圆),但看看我的手动线(虚线),它似乎更好地描述了正在发生的事情。我的x轴是诊断年龄的对数。y轴是侵袭性疾病的概率。如何对虚线进行建模?我想用我自己的,但我不知道如何让R找到最好的参数

我对这两张图的数学理解有什么遗漏吗? 我该如何在R中实现这一点。或者我正在寻找绿色虚线。我不敢相信虚线是正确的。从生物学角度讲,很难想象9.9岁被诊断的人与10.1岁被诊断的人的风险有很大的不同

标准的逻辑函数$\frac{1}{1+e^{-x}}$在$±\infty$处通过0和1。这与您的数据不太匹配,它似乎不接近这两个值中的任何一个,而是从左侧接近0.8,从右侧接近0.3

您可能需要添加“比例”和“偏移”参数,以便可以挤压该曲线并将其移动到该范围内。我的猜测是,尽管有额外的参数,该模型将更适合(通过AIC等),并最终类似于您的虚线

编辑:你在正确的轨道上。下一步是将硬编码值0.5和0.3替换为要拟合的参数。你的模型看起来像

dxage~增益*1/(1+exp(-tau*(x-shift)))+offset

然后,您可以将其与以下内容相匹配:只需传入公式(如上)和数据。如果您对起始值有合理的猜测(您在这里就是这么做的),提供它们可以帮助速度收敛

标准逻辑函数$\frac{1}{1+e^{-x}}$在$±\infty$处通过0和1。这与您的数据不太匹配,它似乎不接近这两个值中的任何一个,而是从左侧接近0.8,从右侧接近0.3

您可能需要添加“比例”和“偏移”参数,以便可以挤压该曲线并将其移动到该范围内。我的猜测是,尽管有额外的参数,该模型将更适合(通过AIC等),并最终类似于您的虚线

编辑:你在正确的轨道上。下一步是将硬编码值0.5和0.3替换为要拟合的参数。你的模型看起来像

dxage~增益*1/(1+exp(-tau*(x-shift)))+offset


然后,您可以将其与以下内容相匹配:只需传入公式(如上)和数据。如果您对起始值有合理的猜测(您在这里就是这么做的),提供它们可以帮助速度收敛

我同意间断函数或阶跃函数通常没有什么生态学意义。再说一遍,也许你的虚线也没有。如果我们同意水平不会产生任何不连续的跳跃(如绿色虚线),那么为什么年龄反应的回归系数会产生不连续的跳跃,从而在绿线中产生“扭结”


你可以考虑用你的年龄来模拟非线性。只要确保你没有过度适应。逻辑回归永远不会产生完美的拟合,所以不要寻找完美的拟合。

我同意间断函数或阶跃函数通常没有什么生态学意义。再说一遍,也许你的虚线也没有。如果我们同意水平不会产生任何不连续的跳跃(如绿色虚线),那么为什么年龄反应的回归系数会产生不连续的跳跃,从而在绿线中产生“扭结”


你可以考虑用你的年龄来模拟非线性。只要确保你没有过度适应。逻辑回归永远不会产生完美的拟合,所以不要搜索一个。

逻辑回归假设预测值足够大/小的概率最终为0或1。是的,您可能需要适合您自己的定制物流模型。“我该如何在R中实现这一点”是这个网站的主题之外。。。但您可以询问StackOverflow和/或等待迁移…逻辑回归假设预测值足够大/小的概率最终为0或1。是的,您可能需要适合您自己的定制物流模型。“我该如何在R中实现这一点”是这个网站的主题之外。。。但是你可以询问StackOverflow和/或等待它被迁移…通过将分子从1更改为0.5,那么最大值是0.5,通过在等式中添加+0.3,它将最低值从0提升到0.3。我想这就是比例和偏移参数的意思。我已经有了一个逻辑回归,我只是使用了诊断分类的三分年龄。是的,AIC更低。然而,我想得到R,找到最好的分子,最好的常数和所有其他参数。我想检查一下我所做的在统计上是否合理。也许为了操作,我会遵循@benb的建议,在stackoverflow中询问。通过将分子从1更改为0.5,那么最大值为0.5,通过在等式中添加+0.3,它将最低值从0提升到0.3。我想这就是比例和偏移参数的意思。我已经有了一个逻辑回归,我只是使用了诊断分类的三分年龄。是的,AIC更低。然而,我想把R变成f