在R中使用分层抽样时,是否有办法确定总体样本量?
我有一个代表50000个模拟的数据集。每个模拟都有多个场景id,与每个场景id关联的是称为目标的第二个标识符。前四个模拟可能如下所示:在R中使用分层抽样时,是否有办法确定总体样本量?,r,downsampling,R,Downsampling,我有一个代表50000个模拟的数据集。每个模拟都有多个场景id,与每个场景id关联的是称为目标的第二个标识符。前四个模拟可能如下所示: +----------------------------------------------+ | SIMULATION |SCENARIO ID |TARGET ID | | | | | +----------------------------------
+----------------------------------------------+
| SIMULATION |SCENARIO ID |TARGET ID |
| | | |
+----------------------------------------------+
| | | |
| 1 | 12 | 11 |
| 1 | 10 | 2 |
| 1 | 1 | 18 |
| 2 | 3 | 9 |
| 2 | 7 | 10 |
| 2 | 21 | 2 |
| 3 | 17 | 15 |
| 3 | 12 | 9 |
| 4 | 7 | 16 |
+---------------+--------------+---------------+
我想将这50000个模拟集采样为10000个模拟集,同时在每个场景/目标组合的频率方面保留50000个模拟集的最佳表示
我尝试过使用splitstackshape包中的分层函数进行分层抽样,并将场景id和目标id设置为一个组。但是,我只能指定每组的样本量
我可以使用从每组取样的比例,直到它接近10000个模拟,但这并不理想,因为我需要尽可能自动化 如果还不算太晚,我可以提出以下解决方案 首先加载库并生成数据集(当然,在您的情况下不需要生成数据集): 秒,定义递减比率。在这个例子中,我使用n=3,在你的例子中,它将是n=5或任何其他符合目标的数字
n = 3
第三个,定义从场景和目标的每个组合中获取的行数。我把数字四舍五入;它们必须是整数。如果舍入数为零,则取1作为样本,以保持场景和目标的每个组合的表示
group.sample = df[, .N, by = .(Scenario.ID, Target.ID)][, pmax(round(N/n), 1)]
group.sample
[1] 1 2 2 2 2 2 3 2 3 1
第四个,标记要带入样本的记录(感谢回答)。我使用set.seed使示例具有可复制性。选择是随机的
set.seed(1)
df[, Sample := 1:.N %in% sample(.N, min(.N, group.sample[.GRP])), by = .(Scenario.ID, Target.ID)]
head(df[order(Simulation, Scenario.ID, Target.ID)])
Simulation Scenario.ID Target.ID Sample
1: 1 1 1 FALSE
2: 1 1 1 TRUE
3: 1 1 2 FALSE
4: 1 2 1 FALSE
5: 1 2 2 FALSE
6: 1 3 1 FALSE
第五个,将情景和目标组合的原始比例与抽样比例进行比较。比例在逗号后四舍五入为两位数
df[, .(Original = round(.N/ nrow(df), 2),
Sampled = round(length(Sample[Sample == TRUE])/df[Sample == TRUE, .N], 2)),
by = .(Scenario.ID, Target.ID)]
Scenario.ID Target.ID Original Sampled
1: 1 1 0.07 0.05
2: 1 2 0.10 0.10
3: 2 1 0.10 0.10
4: 2 2 0.08 0.10
5: 3 1 0.12 0.10
6: 4 1 0.08 0.10
7: 4 2 0.15 0.15
8: 5 1 0.08 0.10
9: 3 2 0.17 0.15
10: 5 2 0.05 0.05
在“每个场景/目标组合的频率”下,您的意思是什么?这是否意味着,例如,场景ID=12和目标ID=11(第一行)可能会在模拟=5中重复,从而使该组合的频率超过1?是的,正是这样。
df[, .(Original = round(.N/ nrow(df), 2),
Sampled = round(length(Sample[Sample == TRUE])/df[Sample == TRUE, .N], 2)),
by = .(Scenario.ID, Target.ID)]
Scenario.ID Target.ID Original Sampled
1: 1 1 0.07 0.05
2: 1 2 0.10 0.10
3: 2 1 0.10 0.10
4: 2 2 0.08 0.10
5: 3 1 0.12 0.10
6: 4 1 0.08 0.10
7: 4 2 0.15 0.15
8: 5 1 0.08 0.10
9: 3 2 0.17 0.15
10: 5 2 0.05 0.05