R logistic回归中非平衡数据集的权重参数

R logistic回归中非平衡数据集的权重参数,r,logistic-regression,R,Logistic Regression,对于如何为不平衡的数据集选择正确的权重参数,我感到困惑。我的数据是二进制变量,只有大约4%的数据是“1”,96%的数据是“0”。我想使用逻辑回归来指定权重 在此链接中: 这个人似乎说,如果我们想使用10%的0和100%的1,那么来自R的glm()函数中的权重对于y=0的观测值应该为10,对于y=1的观测值应该为1。我不明白这些数字是如何选择的,对于我来说,少数类中的样本的权重应该增加(过采样方法,而建议方法似乎是下采样,我不明白如何使用权重参数实现这一点) 我使用的是glm()函数,我想考虑所有

对于如何为不平衡的数据集选择正确的权重参数,我感到困惑。我的数据是二进制变量,只有大约4%的数据是“1”,96%的数据是“0”。我想使用逻辑回归来指定权重

在此链接中: 这个人似乎说,如果我们想使用10%的0和100%的1,那么来自R的glm()函数中的权重对于y=0的观测值应该为10,对于y=1的观测值应该为1。我不明白这些数字是如何选择的,对于我来说,少数类中的样本的权重应该增加(过采样方法,而建议方法似乎是下采样,我不明白如何使用权重参数实现这一点)

我使用的是glm()函数,我想考虑所有的观察值,但1的观察值会更多(比如说,在不失去一般性的情况下,会增加10倍)


非常感谢你的帮助

函数
glm
不实现频率权重,而是:“逆方差权重,可用于对估计结果变量的差分精度建模”。