R 如何使用Amelia描述多重插补后的数据(我应该使用哪个数据集)?
我使用以下代码使用Amelia进行多重插补R 如何使用Amelia描述多重插补后的数据(我应该使用哪个数据集)?,r,imputation,summarize,R,Imputation,Summarize,我使用以下代码使用Amelia进行多重插补 binary<- c("Gender", "Diabetes") exclude.from.IMPUTATION<-c( "Serial.ID") NPvars<- c("age", "HDEF","BMI")#a skewed (non-parametric variable a.out <- Amelia::amelia(x = for.imp.data,m=10, idvars=exc
binary<- c("Gender", "Diabetes")
exclude.from.IMPUTATION<-c( "Serial.ID")
NPvars<- c("age", "HDEF","BMI")#a skewed (non-parametric variable
a.out <- Amelia::amelia(x = for.imp.data,m=10,
idvars=exclude.from.IMPUTATION,
noms = binary, logs =NPvars)
summary(a.out)
## save imputed datasets ##
Amelia::write.amelia(obj=a.out, file.stem = "impdata", format = "csv")
binary您不能只使用其中一个数据集。正如你正确指出的,那么多重插补的整个过程将是无用的
正如jay.sf所说,不同的数据集表达了插补的不确定性。丢失的数据最终会丢失——我们只能估计真实数据的样子。通过多重插补,我们产生了多重估计,真实数据可能是什么样子。总的来说,这可以用来表示:丢失的数据很可能位于。。。还有
生成描述性统计数据时,分别为每个插补数据集生成这些数据。例如,查看平均值,您可以提供这些插补数据集的最低平均值和最高平均值作为附加信息。您可以提供这些平均值的平均值以及插补数据集平均值的标准偏差。这样你的读者就会知道插补有多少不确定性
您还可以使用插补数据集来描述线性模型输出的不确定性。通过使用Rubin规则(RR)汇集参数估计值,如均值差、回归系数、标准误差,并推导置信区间和p值,可以实现这一点。(另请参见)您的不同数据集表示插补的不确定性。你不应该只使用其中一个,那是错误的。您需要通过考虑内部和之间的差异来汇集您的回归。使用Rubin的规则编写代码,您可以在:Rubin,Donald B.1987中找到。调查中无应答的多重插补。纽约:威利。第76页。如果您喜欢自动化,则在mices
包中,该过程由。(也许它也在Amelia中实现了,我不知道。)这个问题似乎更多的是关于统计而不是编程。此类问题最好在[stat.se]上提出,因为那里的统计问题都是关于这个主题的。