R logistic回归中非平衡数据集的权重参数_R_Logistic Regression

R logistic回归中非平衡数据集的权重参数

R logistic回归中非平衡数据集的权重参数,r,logistic-regression,R,Logistic Regression,对于如何为不平衡的数据集选择正确的权重参数，我感到困惑。我的数据是二进制变量，只有大约4%的数据是“1”，96%的数据是“0”。我想使用逻辑回归来指定权重在此链接中：这个人似乎说，如果我们想使用10%的0和100%的1，那么来自R的glm（）函数中的权重对于y=0的观测值应该为10，对于y=1的观测值应该为1。我不明白这些数字是如何选择的，对于我来说，少数类中的样本的权重应该增加（过采样方法，而建议方法似乎是下采样，我不明白如何使用权重参数实现这一点）我使用的是glm（）函数，我想考虑所有

对于如何为不平衡的数据集选择正确的权重参数，我感到困惑。我的数据是二进制变量，只有大约4%的数据是“1”，96%的数据是“0”。我想使用逻辑回归来指定权重

在此链接中：这个人似乎说，如果我们想使用10%的0和100%的1，那么来自R的glm（）函数中的权重对于y=0的观测值应该为10，对于y=1的观测值应该为1。我不明白这些数字是如何选择的，对于我来说，少数类中的样本的权重应该增加（过采样方法，而建议方法似乎是下采样，我不明白如何使用权重参数实现这一点）

我使用的是glm（）函数，我想考虑所有的观察值，但1的观察值会更多（比如说，在不失去一般性的情况下，会增加10倍）

非常感谢你的帮助

函数

glm

不实现频率权重，而是：“逆方差权重，可用于对估计结果变量的差分精度建模”。