最小二乘函数R-While环的快速算法

最小二乘函数R-While环的快速算法,r,R,我正在尝试加速下面的函数(用于以后的自举),该函数执行具有x和y误差的直线的最小二乘拟合。我认为主要的障碍在于while循环。函数的输入值为观测值x和y,以及这些值sx和sy中的绝对不确定性 york <- function(x, y, sx, sy){ x <- cbind(x) y <- cbind(y) # initial least squares regression estimation fit <- lm(y ~ x)

我正在尝试加速下面的函数(用于以后的自举),该函数执行具有x和y误差的直线的最小二乘拟合。我认为主要的障碍在于while循环。函数的输入值为观测值
x
y
,以及这些值
sx
sy
中的绝对不确定性

york <- function(x, y, sx, sy){

    x <- cbind(x)
    y <- cbind(y)

    # initial least squares regression estimation
    fit <- lm(y ~ x)
    a1 <- as.numeric(fit$coefficients[1])   # intercept
    b1 <- as.numeric(fit$coefficients[2])   # slope
    e1 <- cbind(as.numeric(fit$residuals))  # residuals
    theta.fit <- rbind(a1, b1)

    # constants
    rho.xy <- 0     # correlation between x and y

    # initialize york regression
    X <- cbind(1, x)
    a <- a1
    b <- b1
    tol <- 1e-15    # tolerance
    d <- tol
    i = 0

    # york regression
    while (d > tol || d == tol){
        i <- i + 1
        a2 <- a
        b2 <- b
        theta2 <- rbind(a2, b2)
        e <- y - X %*% theta2
        w <- 1 / sqrt((sy^2) + (b2^2 * sx^2) - (2 * b2 * sx * sy * rho.xy))
        W <- diag(w)
        theta <- solve(t(X) %*% (W %*% W) %*% X) %*% t(X) %*% (W %*% W) %*% y

        a <- theta[1]
        b <- theta[2]

        mswd <- (t(e) %*% (W%*%W) %*% e)/(length(x) - 2)
        sfit <- sqrt(mswd)
        Vo <- solve(t(X) %*% (W %*% W) %*% X)
        dif <- b - b2
        d <- abs(dif)
        }

    # format results to data.frame
    th <- data.frame(a, b)
    names(th) <- c("intercept", "slope")
    ft <- data.frame(mswd, sfit)
    names(ft) <- c("mswd", "sfit")
    df <- data.frame(x, y, sx, sy, as.vector(e), diag(W))
    names(df) <- c("x", "y", "sx", "sy", "e", "W")

    # store output results
    list(coefficients = th,
        vcov = Vo,
        fit = ft,
        df = df)
}

york只需做一些简单的更改,就可以加快您的功能。首先,您应该将不需要存在的任何内容移出while循环。例如,对同一数据运行两次
solve
。此外,当您仅在while循环的最后一次迭代中使用它时,您可以在每次迭代中计算
sfit

这是我的密码:

york.fast <- function(x, y, sx, sy, tol=1e-15){
    # initial least squares regression estimation
    fit <- lm(y ~ x)
    theta <- fit$coefficients
    # initialize york regression
    X <- cbind(1, x)
    d <- tol
    # york regression
    while (d >= tol){
        b2 <- theta[2]
        # w <- 1 / sqrt((sy^2) + (b2^2 * sx^2) - (2 * b2 * sx * sy * rho.xy)) # rho.xy is always zero!
        w <- 1 / sqrt(sy^2 + (b2^2 * sx^2))  # rho.xy is always zero!
        # W <- diag(w)
        # w2 <- W %*% W
        w2 <- diag(w^2) # As suggested in the comments.
        base <- crossprod(X,w2)
        Vo <- solve(base %*% X)
        theta <- Vo %*% base %*% y
        d <- abs(theta[2] - b2)
     }
     e <- y - X %*% theta
     mswd <- (crossprod(e,w2) %*% e) / (length(x) - 2)
     sfit <- sqrt(mswd)

    # format results to data.frame
    th <- data.frame(intercept=theta[1], slope=theta[2])
    ft <- data.frame(mswd=mswd, sfit=sfit)
    df <- data.frame(x=x, y=y, sx=sx, sy=sy, e=as.vector(e), W=diag(diag(w)))

    # store output results
    list(coefficients = th, vcov = Vo, fit = ft, df = df)
}

york.fast只是出于兴趣,向量有多大,代码运行需要多长时间?在循环之前为结果向量分配内存,然后避免cbind和rbind。这可能不是一个特别令人满意的答案,但这正是您应该在循环从R调用的编译代码时执行的函数类型。这不是运行缓慢的太多数据。如果是我,我可能会做一些仔细的调试,看看while循环中发生了什么,这需要很长时间。特别是关于公差设置和d的连续值。也尝试使用R的内置函数进行加权回归,而不是自己滚动;它可能更快,也可能不更快,但肯定更可靠<代码>西塔谢谢大家的帮助。我显然还有更多的东西要学,但这些建议非常有用。+1:不过,我肯定更喜欢使用现有的常规进行试穿。尽管如此,这样做还有一个额外的加速:交叉积可以通过使用正则乘法而不是矩阵乘法来加速,因为第二项是对角矩阵。至少,
w2
n=225
set.seed(1)
x=rnorm(n)
y=rnorm(n)
sx=rnorm(n)
sy=rnorm(n)

system.time(test<-york.fast(x,y,sx,sy)) # 0.37 s
system.time(gold<-york(x,y,sx,sy)) # 1.28 s