R 通过不同的数据帧进行循环回归
目标是在不同的训练数据框架上进行多元logit回归,然后评估各自测试数据集的性能 首先,我们从R 通过不同的数据帧进行循环回归,r,loops,cross-validation,sapply,training-data,R,Loops,Cross Validation,Sapply,Training Data,目标是在不同的训练数据框架上进行多元logit回归,然后评估各自测试数据集的性能 首先,我们从df创建多(5)个随机采样的数据帧: for(i in 1:5) { nr <- paste("random_df", i, sep = "_") assign(nr, random_df[sample(nrow(df)),]) } 非常感谢您的帮助。我很确定您误解了lappy的使用和输出。它在输入上循环并创建一个对象列表,这些对象属于您使用的函数输出的典型类 如果我读对了你的代码,这部分 fo
df
创建多(5)个随机采样的数据帧:
for(i in 1:5) {
nr <- paste("random_df", i, sep = "_")
assign(nr, random_df[sample(nrow(df)),])
}
非常感谢您的帮助。我很确定您误解了
lappy
的使用和输出。它在输入上循环并创建一个对象列表,这些对象属于您使用的函数输出的典型类
如果我读对了你的代码,这部分
for(i in 1:5) {
index <- paste("lr_train", i, sep = "_")
assign(index, lapply(lr_list, function(x) {glm(y ~ x1 + x2, data=x,
subset=train, family=binomial)}))
}
请注意,由于缺少工作数据示例,这一点未经测试。我很确定您误解了
lappy
的使用和输出。它在输入上循环并创建一个对象列表,这些对象属于您使用的函数输出的典型类
如果我读对了你的代码,这部分
for(i in 1:5) {
index <- paste("lr_train", i, sep = "_")
assign(index, lapply(lr_list, function(x) {glm(y ~ x1 + x2, data=x,
subset=train, family=binomial)}))
}
请注意,由于缺少一个工作数据示例,这是未经测试的。不久前,我学习了使用
dplyr
和purr
软件包的技巧。这是关于使用嵌套的数据。frame
:
nested_df <- tibble(subdf = 1:5) %>% # Choose number of 'random_df'
rowwise() %>%
mutate(data = list(df[sample(nrow(df)),])) %>% # create a list of random data.frames within our data.frame
ungroup() %>%
mutate(model = map(data, ~ glm(y ~ x1 + x2, data = .x,
subset = train, family = binomial))) # iterate with map throug all of data.frame's in column data
nested_df
subdf data model
<int> <list> <list>
1 1 <data.frame [100 x 3]> <S3: glm>
2 2 <data.frame [100 x 3]> <S3: glm>
3 3 <data.frame [100 x 3]> <S3: glm>
4 4 <data.frame [100 x 3]> <S3: glm>
5 5 <data.frame [100 x 3]> <S3: glm>
输出来自我的快速模拟df
df <- data.frame(y = rnorm(100, 100),
x1 = sample(letters[1:3], size = 100, replace = T),
x2 = runif(100 ,0, 1000)) %>%
mutate(y = y/max(y))
df%
突变(y=y/最大值(y))
你可以用类似结构的
mutate()
和map()
对每个glm进行预测。不久前,我学会了使用dplyr
和purr
包的技巧。这是关于使用嵌套的数据。frame
:
nested_df <- tibble(subdf = 1:5) %>% # Choose number of 'random_df'
rowwise() %>%
mutate(data = list(df[sample(nrow(df)),])) %>% # create a list of random data.frames within our data.frame
ungroup() %>%
mutate(model = map(data, ~ glm(y ~ x1 + x2, data = .x,
subset = train, family = binomial))) # iterate with map throug all of data.frame's in column data
nested_df
subdf data model
<int> <list> <list>
1 1 <data.frame [100 x 3]> <S3: glm>
2 2 <data.frame [100 x 3]> <S3: glm>
3 3 <data.frame [100 x 3]> <S3: glm>
4 4 <data.frame [100 x 3]> <S3: glm>
5 5 <data.frame [100 x 3]> <S3: glm>
输出来自我的快速模拟df
df <- data.frame(y = rnorm(100, 100),
x1 = sample(letters[1:3], size = 100, replace = T),
x2 = runif(100 ,0, 1000)) %>%
mutate(y = y/max(y))
df%
突变(y=y/最大值(y))
您可以使用类似结构的
mutate()
和map()
对每个glm进行预测。您应该查看modeler
包。这使很多事情变得更容易:谢谢@AndrewBrēza,您能告诉我,不仅resample
而且还可以使用modeler
包评估多个列车和测试集上的模型?您应该查看modeler
package。这让很多事情变得更简单:谢谢@AndrewBrēza,你能给我一个提示,说明如何不仅对重新采样
,而且使用modelr
包对多个训练集和测试集上的模型进行评估吗?你需要使用map2/pmap进行预测…%%>%mutate(pred=map2(model,data,predict))map
属于哪个包?@Dima在我的回答中犯了一个错误,packagepurrr
。您需要使用map2/pmap进行预测…%%>%mutate(pred=map2(model,data,predict))map
属于哪个软件包?@Dima在我的回答中犯了一个错误,packagepurr
。谢谢@Leo P。虽然未经测试,但效果很好。你说得对,我误解了拉皮。我们继续使用:lr_estim Thank@Leo P创建因子。尽管未经测试,但效果良好。你说得对,我误解了拉皮。我们继续使用:lr\u estim创建一个因子
lr_test <- mapply(function(x, y) predict(x, y[test, ], type = "response"), lr_train, lr_list)
nested_df <- tibble(subdf = 1:5) %>% # Choose number of 'random_df'
rowwise() %>%
mutate(data = list(df[sample(nrow(df)),])) %>% # create a list of random data.frames within our data.frame
ungroup() %>%
mutate(model = map(data, ~ glm(y ~ x1 + x2, data = .x,
subset = train, family = binomial))) # iterate with map throug all of data.frame's in column data
nested_df
subdf data model
<int> <list> <list>
1 1 <data.frame [100 x 3]> <S3: glm>
2 2 <data.frame [100 x 3]> <S3: glm>
3 3 <data.frame [100 x 3]> <S3: glm>
4 4 <data.frame [100 x 3]> <S3: glm>
5 5 <data.frame [100 x 3]> <S3: glm>
nested_df$model[[1]]
Call: glm(formula = y ~ x1 + x2, family = binomial, data = .x, subset = train)
Coefficients:
(Intercept) x1b x1c x2
3.467e+00 -5.085e-03 1.300e-02 9.368e-05
Degrees of Freedom: 79 Total (i.e. Null); 76 Residual
Null Deviance: 0.3428
Residual Deviance: 0.3408 AIC: 12.7
df <- data.frame(y = rnorm(100, 100),
x1 = sample(letters[1:3], size = 100, replace = T),
x2 = runif(100 ,0, 1000)) %>%
mutate(y = y/max(y))