R中的分层自举
我有一种特定的方法来引导以下生存数据(“mydata”;这只是完整数据集的一个示例): 每行是一个活着(surv=“1”)或死去(surv=“0”)的个体。每杯四个个体聚集在一起。我希望引导的每次迭代只从每个杯子中随机抽取一个样本,而不是更多,并估计平均值和标准差。下一次迭代将再次对每个杯子中的一个人进行采样,这可能是第一次迭代中采样的同一个人,也可能不是 到目前为止,我只成功地对所有杯子进行了随机抽样和替换,因此每次迭代可能会从同一个杯子中统计出两个独立的个体,而从另一个杯子中抽样为零。这是代码:R中的分层自举,r,R,我有一种特定的方法来引导以下生存数据(“mydata”;这只是完整数据集的一个示例): 每行是一个活着(surv=“1”)或死去(surv=“0”)的个体。每杯四个个体聚集在一起。我希望引导的每次迭代只从每个杯子中随机抽取一个样本,而不是更多,并估计平均值和标准差。下一次迭代将再次对每个杯子中的一个人进行采样,这可能是第一次迭代中采样的同一个人,也可能不是 到目前为止,我只成功地对所有杯子进行了随机抽样和替换,因此每次迭代可能会从同一个杯子中统计出两个独立的个体,而从另一个杯子中抽样为零。这是代
library(boot)
surv.mean = function(x, indices) {
return( mean( x[indices] ) )
}
surv.boot <- boot(mydata$surv, surv.mean, 10000)
boot.ci(surv.boot)
使用
dplyr
:
library(dplyr)
subsample <- mydata %>%
group_by(cup) %>%
sample_n(1)
库(dplyr)
子样本%
组别(杯赛)%>%
样本(1)
group cup surv
A 100-9 0
A 100-9 0
A 100-9 1
A 100-9 1
B 101-9 0
B 101-9 0
B 101-9 0
B 101-9 0
C 51-1 0
C 51-1 1
C 51-1 1
C 51-1 1
library(dplyr)
subsample <- mydata %>%
group_by(cup) %>%
sample_n(1)