使用amelia或R小鼠创建的插补模型获取新数据

使用amelia或R小鼠创建的插补模型获取新数据,r,imputation,r-mice,R,Imputation,R Mice,假设我在一个大数据帧上运行一个缺失的变量插补R包,amelia或mice(或类似的),比如100000行50列,以获得一个特定列的插补,其中包含一些(比如200个)NAs 有没有办法保存衍生插补算法,这样当我获得包含1000行新行的新数据时,我就可以简单地将该算法应用于新数据 目标是使用与基础数据相同的算法在新数据集中插补任何新NAs 提前感谢您——如果这不清楚,我很乐意回答任何问题。caret接近您想要的:这假设所有新数据采用相同的变量。然而,根据我的经验,插入符号和小鼠的插补精度不同 库(插

假设我在一个大数据帧上运行一个缺失的变量插补R包,amelia或mice(或类似的),比如100000行50列,以获得一个特定列的插补,其中包含一些(比如200个)NAs

有没有办法保存衍生插补算法,这样当我获得包含1000行新行的新数据时,我就可以简单地将该算法应用于新数据

目标是使用与基础数据相同的算法在新数据集中插补任何新NAs


提前感谢您——如果这不清楚,我很乐意回答任何问题。

caret
接近您想要的:这假设所有新数据采用相同的变量。然而,根据我的经验,
插入符号
小鼠
的插补精度不同

库(插入符号)

mydataHi在这里,请提供一个最小的、可复制的、具有代表性的示例以及所需的最终结果。对数据使用
dput()
,并使用库调用指定所有非基本包。不要为数据或代码嵌入图片,使用缩进的代码块。为什么不能每次都进行插补,这是两行代码?有一个
m
(鼠标)参数可以像再现性一样工作。@NelsonGon抱歉,我不清楚。是的,我当然可以重新进行插补,但在“新数据”的情况下,我希望“编译”插补速度超快。几乎就像我想要一个“预测”的插补语句……是的,这正是我想要的。然而,我想知道是否有办法在类似编译的过程中“保存”插补算法,而不必将“mydata”加载到内存中?有什么想法吗?对不起,你能详细说明一下编译类流程是如何工作的吗?我看不出来。大多数插补包都依赖于将插补值保存在内存中。可能在环境中临时分配对象?
library(caret)
mydata<-data.frame(A=c(rep(NA,900),rep(3,900)),B=c(rep(NA,200),rep(3,400)))
mydata1<-data.frame(D=mydata,E=rep(mydata))
prep<-preProcess(mydata,method = "medianImpute")
df_new<-predict(prep,mydata)
df_new
df_new2<-predict(prep,mydata1)