R 循环以实现遗漏一个观察值并运行glm，每次一个变量_R_Loops_Regression_Cross Validation_Glm

R 循环以实现遗漏一个观察值并运行glm，每次一个变量

r loops

R 循环以实现遗漏一个观察值并运行glm，每次一个变量,r,loops,regression,cross-validation,glm,R,Loops,Regression,Cross Validation,Glm,我有一个包含96个观察值和1106个变量的数据框架我想对的观察结果进行逻辑回归，每次一个。（因此，对于第一组观测值，移除第一个观测值时总共有95个观测值，移除第二个观测值时总共有95个观测值，依此类推，这样就有95组观测值，每个观测值都有一个观测值遗漏。）此外，我想一次只在一个变量上运行每组观察结果。在对一个变量进行95个观测值的回归后，我想提取p值（不包括截距p值）我已经能够手动完成所有这些，一次一个。然而，这是非常乏味的96次这样做，我相信一定有一种方法来自动与一个或多个循环下面

我有一个包含96个观察值和1106个变量的数据框架

我想对的观察结果进行逻辑回归，每次一个。（因此，对于第一组观测值，移除第一个观测值时总共有95个观测值，移除第二个观测值时总共有95个观测值，依此类推，这样就有95组观测值，每个观测值都有一个观测值遗漏。）

此外，我想一次只在一个变量上运行每组观察结果。在对一个变量进行95个观测值的回归后，我想提取p值（不包括截距p值）

我已经能够手动完成所有这些，一次一个。然而，这是非常乏味的96次这样做，我相信一定有一种方法来自动与一个或多个循环

下面是我如何在10次观察中手动执行此操作的演示

## Create 10 data frames by removing one observation from each ## di.1 <- mainDF [-1,] di.2 <- mainDF [-2,] di.3 <- mainDF [-3,] di.4 <- mainDF [-4,] di.5 <- mainDF [-5,] di.6 <- mainDF [-6,] di.7 <- mainDF [-7,] di.8 <- mainDF [-8,] di.9 <- mainDF [-9,] di.10 <- mainDF [-10,] ## Create data frames to put each p-value result in ## dt.1 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.2 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.3 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.4 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.5 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.6 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.7 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.8 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.9 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) dt.10 <- data.frame(intercept=numeric(), gene=numeric(), stringsAsFactors=FALSE) ## Run logistic regression on each data frame with one one obs. left out ## ## GLM run on one variable at a time## ## Extract p-values and put in separate dfs ## for (i in 2:1106) { formulas <- glm(response ~ di.1[,i], data=di.1, family= "binomial") dt.1[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.2[,i], data=di.2, family= "binomial") dt.2[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.3[,i], data=di.3, family= "binomial") dt.3[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.4[,i], data=di.4, family= "binomial") dt.4[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.5[,i], data=di.5, family= "binomial") dt.5[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.6[,i], data=di.6, family= "binomial") dt.6[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.7[,i], data=di.7, family= "binomial") dt.7[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.8[,i], data=di.8, family= "binomial") dt.8[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.9[,i], data=di.9, family= "binomial") dt.9[i,] <- coef(summary(formulas))[,4] } for (i in 2:1106) { formulas <- glm(response ~ di.10[,i], data=di.10, family= "binomial") dt.10[i,] <- coef(summary(formulas))[,4] } ## Remove intercept p-values ## dt.1<- dt.1[-c(1)] dt.2<- dt.2[-c(1)] dt.3<- dt.3[-c(1)] dt.4<- dt.4[-c(1)] dt.5<- dt.5[-c(1)] dt.6<- dt.6[-c(1)] dt.7<- dt.7[-c(1)] dt.8<- dt.8[-c(1)] dt.9<- dt.9[-c(1)] dt.10<- dt.10[-c(1)] ## Export data frames, then manually copy and paste them into one CSV ## write.csv(dt.1, file = "MyData.csv") write.csv(dt.2, file = "MyData2.csv") write.csv(dt.3, file = "MyData3.csv") write.csv(dt.4, file = "MyData4.csv") write.csv(dt.5, file = "MyData5.csv") write.csv(dt.6, file = "MyData6.csv") write.csv(dt.7, file = "MyData7.csv") write.csv(dt.8, file = "MyData8.csv") write.csv(dt.9, file = "MyData9.csv") write.csv(dt.10, file = "MyData10.csv")

非常感谢您抽出时间
正如我在前面的评论中所说，我不会使用
glm
和
summary.glm
，因为这对于您的任务来说太慢了，因为您将适应
96*1106
glm。我将使用
glm.fit
，自己计算回归系数的p值。下面的函数
f
执行此操作。它将一个一维向量
x
作为协变量（不允许
NA
使用），另一个一维向量
y
作为响应（不允许
NA
使用）。由于进行了逻辑回归，因此要求
y
是两个级别的因子（或0-1二进制值）
所以p值匹配

我们现在需要另一个函数
g
来组织您计划作为双嵌套循环执行的操作。外部循环控制“省略一个”，而内部循环通过
lappy
排列，以循环数据帧列。在外循环的每次迭代结束时，p值的结果数据帧被写入“.csv”文件

g每个变量都是一个基因，我正在计算每个基因在所有观察数据集中被发现显著的次数。这是我用来确定哪些基因对我的研究有重要意义的不同方法之一。是的，不要这样做。使用正则化方法，如弹性网。你可以使用glmnet软件包来实现这一点。因为LOO是CV的一种形式，所以也有标记。 Response X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 P1 N 1 1 1 0 1 0 1 0 2 2 P2 N 2 1 1 0 2 2 1 2 2 2 P3 N 2 1 2 1 1 0 1 1 0 1 P4 Y 1 1 2 0 1 0 0 1 1 1 P5 N 2 2 1 1 1 0 0 0 1 1 P6 N 2 1 2 1 1 0 0 0 2 1 P7 Y 2 1 1 0 2 0 0 0 2 0 P8 Y 2 1 1 0 2 0 0 1 0 2 P9 N 1 1 1 0 2 0 0 0 1 0 P10 N 2 1 2 1 1 0 1 0 0 2 f <- function (x, y) { ## call `glm.fit` fit <- glm.fit(cbind(1,x), y, family = binomial()) ## estimated regression coefficients beta <- unname(fit$coefficients) ## since there are only two coefficients, I don't bother using `chol2inv` ## then extract square root of diagonals for standard errors se <- sqrt(diag(chol2inv(fit$qr$qr, size = fit$qr$rank))) ## deal with possible rank-deficient case if (length(se) < 2L) se <- c(se, NA_real_) ## z-score z <- beta / se ## p-value (0.05 significance level) 2 * pnorm(-abs(z)) } dat <- structure(list(Response = structure(c(1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L, 1L, 1L), .Label = c("N", "Y"), class = "factor"), X1 = c(1L, 2L, 2L, 1L, 2L, 2L, 2L, 2L, 1L, 2L), X2 = c(1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 1L, 1L), X3 = c(1L, 1L, 2L, 2L, 1L, 2L, 1L, 1L, 1L, 2L), X4 = c(0L, 0L, 1L, 0L, 1L, 1L, 0L, 0L, 0L, 1L), X5 = c(1L, 2L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 1L), X6 = c(0L, 2L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), X7 = c(1L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 0L, 1L), X8 = c(0L, 2L, 1L, 1L, 0L, 0L, 0L, 1L, 0L, 0L), X9 = c(2L, 2L, 0L, 1L, 1L, 2L, 2L, 0L, 1L, 0L), X10 = c(2L, 2L, 1L, 1L, 1L, 1L, 0L, 2L, 0L, 2L)), .Names = c("Response", "X1", "X2", "X3", "X4", "X5", "X6", "X7", "X8", "X9", "X10"), row.names = c("P1", "P2", "P3", "P4", "P5", "P6", "P7", "P8", "P9", "P10"), class = "data.frame") ## code response into factor dat[[1]] <- factor(dat[[1]]) ## call `f` f(dat[[2]], dat[[1]]) # [1] 0.8559137 0.8804148 ## call `glm` + `summary.glm` coef(summary(glm(Response ~ X1, data = dat, family = binomial()))) # Estimate Std. Error z value Pr(>|z|) #(Intercept) -0.4700036 2.588435 -0.1815783 0.8559137 #X1 -0.2231436 1.483239 -0.1504434 0.8804148 g <- function (dat) { ## convert response to factor (if it is not readily is) y <- as.factor(dat[[1]]) ## leave-one-out for (i in 1:nrow(dat)) { ## covariates data frame covariates <- dat[-i, -1] ## response vector response <- y[-i] ## call `f` to get a data frame of p-values result <- as.data.frame(lapply(covariates, f, y = response)) ## write data frame to file write.csv(result, file = paste0(i,".csv"), row.names = FALSE) } }