Python Statsmodels逻辑回归类不平衡_Python_Statistics_Statsmodels

Python Statsmodels逻辑回归类不平衡

python statistics

Python Statsmodels逻辑回归类不平衡,python,statistics,statsmodels,Python,Statistics,Statsmodels,我希望通过类权重或样本权重重新平衡数据集，在类为0.5%的数据集上运行逻辑回归。我可以在scikit learn中这样做，但它没有提供模型的任何推断统计数据（置信区间、p值、残差分析）在statsmodels中可以这样做吗？我在statsmodels.discrete.discrete\u model.Logit.fit中没有看到示例权重或类权重参数谢谢大家! 程序员的答案： statsmodels Logit和其他离散模型还没有权重。（*） GLM二项式通过每次观察成功和失败的试验次数隐式

我希望通过类权重或样本权重重新平衡数据集，在类为0.5%的数据集上运行逻辑回归。我可以在scikit learn中这样做，但它没有提供模型的任何推断统计数据（置信区间、p值、残差分析）

在statsmodels中可以这样做吗？我在statsmodels.discrete.discrete\u model.Logit.fit中没有看到示例权重或类权重参数

谢谢大家!

程序员的答案：

statsmodels Logit和其他离散模型还没有权重。（*）

GLM二项式通过每次观察成功和失败的试验次数隐式定义了病例权重。它还允许通过GLM方差函数操纵权重，但这还没有得到官方支持和测试

统计学家/计量经济学家的回答：

推断、标准误差、置信区间、检验等都是基于随机样本。如果权重被操纵，那么这将影响推断统计。然而，我从未考虑过根据观察到的反应重新平衡数据的问题。通常，这会产生选择偏差。一个快速的互联网搜索显示了几个答案，从重新平衡在Logit中没有积极的影响到作为替代方案的惩罚估计

一种可能性是还可以尝试不同的链接函数，cloglog或其他链接函数具有不对称或较重的尾部，更适合于一个类别或类别中风险较小的数据

（*）实施权重的一个问题是确定它们的解释用于推理。例如，Stata允许3种权重。

GLM的类似问题