Python Statsmodels逻辑回归类不平衡

Python Statsmodels逻辑回归类不平衡,python,statistics,statsmodels,Python,Statistics,Statsmodels,我希望通过类权重或样本权重重新平衡数据集,在类为0.5%的数据集上运行逻辑回归。我可以在scikit learn中这样做,但它没有提供模型的任何推断统计数据(置信区间、p值、残差分析) 在statsmodels中可以这样做吗?我在statsmodels.discrete.discrete\u model.Logit.fit中没有看到示例权重或类权重参数 谢谢大家! 程序员的答案: statsmodels Logit和其他离散模型还没有权重。(*) GLM二项式通过每次观察成功和失败的试验次数隐式

我希望通过类权重或样本权重重新平衡数据集,在类为0.5%的数据集上运行逻辑回归。我可以在scikit learn中这样做,但它没有提供模型的任何推断统计数据(置信区间、p值、残差分析)

在statsmodels中可以这样做吗?我在statsmodels.discrete.discrete\u model.Logit.fit中没有看到示例权重或类权重参数

谢谢大家!

程序员的答案:

statsmodels Logit和其他离散模型还没有权重。(*)

GLM二项式通过每次观察成功和失败的试验次数隐式定义了病例权重。它还允许通过GLM方差函数操纵权重,但这还没有得到官方支持和测试

统计学家/计量经济学家的回答:

推断、标准误差、置信区间、检验等都是基于随机样本。如果权重被操纵,那么这将影响推断统计。 然而,我从未考虑过根据观察到的反应重新平衡数据的问题。通常,这会产生选择偏差。一个快速的互联网搜索显示了几个答案,从重新平衡在Logit中没有积极的影响到作为替代方案的惩罚估计

一种可能性是还可以尝试不同的链接函数,cloglog或其他链接函数具有不对称或较重的尾部,更适合于一个类别或类别中风险较小的数据

(*)实施权重的一个问题是确定它们的解释用于推理。例如,Stata允许3种权重。

GLM的类似问题