“如何解决错误”;观察太少。”;在R中使用ROSE来平衡数据时?
我尝试使用R上的ROSE库来重新平衡数据集中的目标变量。 这是我的数据集信息“如何解决错误”;观察太少。”;在R中使用ROSE来平衡数据时?,r,statistical-sampling,R,Statistical Sampling,我尝试使用R上的ROSE库来重新平衡数据集中的目标变量。 这是我的数据集信息 我的原始数据集总共有132056条记录 在目标变量中,共有279例(0.21%)为轻度 目标变量中主要类别共有131777例(99.79%) 我想对数据集进行欠采样,使次要类别的百分比增加到5% 这是我的密码: df_Under <- ovun.sample(Target ~ ., data = df, method = "under", N =5580, seed = 1) 我试着用ROSE的其他方法玩,
- 我的原始数据集总共有132056条记录
- 在目标变量中,共有279例(0.21%)为轻度
- 目标变量中主要类别共有131777例(99.79%)
df_Under <- ovun.sample(Target ~ ., data = df, method = "under", N =5580, seed = 1)
我试着用ROSE的其他方法玩,比如“结束”和“两者”,但也出现了同样的错误
我如何解决这个问题
亲切问候,我相信您希望您的代码使用
p=0.05
(5%)而不是像您那样使用p=0.5
(50%)(这是函数的默认值),并使用over
sample来显示少数类的样本大小,如您在帖子中所述:
df_Under <- ovun.sample(Target ~ ., data = df, method = "over", N =5580, seed = 1, p = 0.05)
data.balanced.UnderI面临同样的问题。问题实际上是数据集中的列(变量)带有NA/Nan 请在删除NA后尝试运行代码 让我知道这是否有帮助
df_Under <- ovun.sample(Target ~ ., data = df, method = "over", N =5580, seed = 1, p = 0.05)