线性模型迭代拟合,并使用varImp()计算迭代过程中所有预测值的变量重要性

线性模型迭代拟合,并使用varImp()计算迭代过程中所有预测值的变量重要性,r,loops,iteration,linear-regression,lm,R,Loops,Iteration,Linear Regression,Lm,我希望迭代拟合线性模型(=LM),并在每次迭代后使用caret::varImp()函数计算各个变量/预测值的变量重要性。我的数据表和天数如下所示(dt.train的列数总是不同的,days变量也不同): 现在,我希望有一个循环为我构建迭代,如下所示: 1。运行:模型拟合,数据从“2020-01-01”到“2020-02-20”(这里正好是50天) 2。运行:模型拟合,数据从“2020-01-02”到“2020-02-21” 3。运行:模型拟合,数据从“2020-01-03”到“2020-02-2

我希望迭代拟合线性模型(=LM),并在每次迭代后使用
caret::varImp()
函数计算各个变量/预测值的变量重要性。我的数据表和天数如下所示(
dt.train
的列数总是不同的,
days
变量也不同):

现在,我希望有一个循环为我构建迭代,如下所示:

1。运行:模型拟合,数据从“2020-01-01”到“2020-02-20”(这里正好是50天)

2。运行:模型拟合,数据从“2020-01-02”到“2020-02-21”

3。运行:模型拟合,数据从“2020-01-03”到“2020-02-22”

等等

上次运行:模型与“2020-11-11”到“2020-12-31”的数据拟合


然后,应始终将变量重要性保存在新表中,以匹配模型拟合,即:

1的可变重要性。运行:应声明为“2020-01-01”

2的可变重要性。运行:应为“2020-01-02”声明

。。。等等

上次运行的变量重要性:应声明为“2020-11-11”


这是怎么回事?

您可以使用
zoo
软件包中的
rollapply

重要论点包括:

  • width
    设置窗口
  • by.column=FALSE
    将所有列一起传递给模型
  • aligned='left'
    以便滚动窗口从屏幕上的第一个数据点开始
由于
rollappy
在矩阵上工作,它将
日期
数字
混合转换为
字符
,因此必须单独处理
日期
字段

库(data.table)
图书馆(插入符号)
图书馆(动物园)
d 314:2020-11-09 4.464356 0.8773634 0.8845554 0.19480862
#> 315: 2020-11-10 4.532254 0.8230178 0.7147899 0.38073588
#> 316: 2020-11-11 4.415192 0.7462676 0.8225977 0.32353235
#> 317: 2020-11-12 3.666675 0.3957351 0.6607121 0.19661800

此解决方案比您已经使用的函数需要更多的时间,因为它的计算量是chunck版本的50倍。也无法使用
数据。table::frollapply
,AFAIK只能输出一维向量。

您可以使用
zoo
软件包中的
rollappy

重要论点包括:

  • width
    设置窗口
  • by.column=FALSE
    将所有列一起传递给模型
  • aligned='left'
    以便滚动窗口从屏幕上的第一个数据点开始
由于
rollappy
在矩阵上工作,它将
日期
数字
混合转换为
字符
,因此必须单独处理
日期
字段

库(data.table)
图书馆(插入符号)
图书馆(动物园)
d 314:2020-11-09 4.464356 0.8773634 0.8845554 0.19480862
#> 315: 2020-11-10 4.532254 0.8230178 0.7147899 0.38073588
#> 316: 2020-11-11 4.415192 0.7462676 0.8225977 0.32353235
#> 317: 2020-11-12 3.666675 0.3957351 0.6607121 0.19661800

此解决方案比您已经使用的函数需要更多的时间,因为它的计算量是chunck版本的50倍。也无法使用AFAIK只能输出一维向量的
data.table::frollapply

Hi!不幸的是,当我将此应用于GAM时,它并没有像希望的那样工作,火星模型也是如此。在我们之前的讨论中,每个模型都有其约束条件,确保数据符合这些约束条件可能会很乏味。但是,我看不出上述方法不适用于其他模型类型的根本原因。嗨!不幸的是,当我将此应用于GAM时,它并没有像希望的那样工作,火星模型也是如此。在我们之前的讨论中,每个模型都有其约束条件,确保数据符合这些约束条件可能会很乏味。但是,我看不出上述方法不适用于其他模型类型的根本原因。
d <- 50  
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
                       "DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
                       "Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3),  check.names = FALSE)
varImportance <- function(data){
  ## Model fitting: ##
  lmModel <- stats::lm(DE ~ .-1-date, data = data)
  
  terms <- attr(lmModel$terms , "term.labels")
  varimp <- caret::varImp(lmModel)
  importance <- data[, .(date, imp = t(varimp))]
} 
## Get variable importance: ##
dt.importance <- dt.train[, varImportance(.SD), by = seq_len(nrow(dt.train)) %/% d]