Python 线性回归的梯度下降实现问题

Python 线性回归的梯度下降实现问题,python,machine-learning,least-squares,gradient-descent,Python,Machine Learning,Least Squares,Gradient Descent,我正在学习机器学习/线性回归。以下是他们如何描述用于求解估计OLS系数的梯度下降算法: 因此,他们对系数使用w,对设计矩阵(或他们称之为特征)使用H,对因变量使用y。它们的收敛准则通常是RSS梯度的范数小于容差ε;也就是说,他们对“不收敛”的定义是: 我很难让这个算法收敛,我想知道在我的实现中是否忽略了一些东西。下面是代码。请注意,我还通过运行我在其中使用的样本数据集(df),只是为了查看回归可以收敛,并获得与之相关的系数值。确实如此,他们是: Intercept 4.344435 x

我正在学习机器学习/线性回归。以下是他们如何描述用于求解估计OLS系数的梯度下降算法:

因此,他们对系数使用
w
,对设计矩阵(或他们称之为特征)使用
H
,对因变量使用
y
。它们的收敛准则通常是RSS梯度的范数小于容差ε;也就是说,他们对“不收敛”的定义是:

我很难让这个算法收敛,我想知道在我的实现中是否忽略了一些东西。下面是代码。请注意,我还通过运行我在其中使用的样本数据集(
df
),只是为了查看回归可以收敛,并获得与之相关的系数值。确实如此,他们是:

Intercept    4.344435
x1           4.387702
x2           0.450958
这是我的实现。在每次迭代中,它将打印RSS梯度的范数:

import numpy as np
import numpy.linalg as LA
import pandas as pd
from pandas import DataFrame

# First define the grad function: grad(RSS) = -2H'(y-Hw)
def grad_rss(df, var_name_y, var_names_h, w):
    # Set up feature matrix H
    H = DataFrame({"Intercept" : [1 for i in range(0,len(df))]})
    for var_name_h in var_names_h:
        H[var_name_h] = df[var_name_h]

    # Set up y vector
    y = df[var_name_y]

    # Calculate the gradient of the RSS:  -2H'(y - Hw)
    result = -2 * np.transpose(H.values) @ (y.values - H.values @ w)

    return result

def ols_gradient_descent(df, var_name_y, var_names_h, epsilon = 0.0001, eta = 0.05):
    # Set all initial w values to 0.0001 (not related to our choice of epsilon)
    w = np.array([0.0001 for i in range(0, len(var_names_h) + 1)])

    # Iteration counter
    t = 0

    # Basic algorithm: keep subtracting eta * grad(RSS) from w until
    # ||grad(RSS)|| < epsilon.
    while True:
        t = t + 1

        grad = grad_rss(df, var_name_y, var_names_h, w)
        norm_grad = LA.norm(grad)

        if norm_grad < epsilon:
            break
        else:
            print("{} : {}".format(t, norm_grad))
            w = w - eta * grad

            if t > 10:
                raise Exception ("Failed to converge")

    return w

# ########################################## 

df = DataFrame({
        "y" : [20,40,60,80,100] ,
        "x1" : [1,5,7,9,11] ,
        "x2" : [23,29,60,85,99]         
    })

# Run
ols_gradient_descent(df, "y", ["x1", "x2"])
如果我增加足够的最大迭代次数,它就不会收敛,而是会爆炸到无穷大

这里是否有实现错误,或者我误解了课堂笔记中的解释

更新w/答案 正如@Kant所建议的,
eta
需要在每次迭代时更新。课程本身有一些关于这方面的示例公式,但没有一个有助于收敛。提到作为更新
eta
的好方法。我实现了它,并在每次迭代时修改代码以更新
eta
,回归成功收敛。下面是我将维基百科版本的公式翻译成回归中使用的变量,以及实现它的代码。同样,在我原来的
ols\u gradient\u descent
循环中调用此代码来更新
eta


尝试降低eta的值。如果预计到达时间太高,梯度下降可能会发散。

我做了,但它不起作用。然而,我肯定看到了进步。eta(以及epsilon)的选择在很大程度上是一门艺术吗?如果是这样的话,梯度下降在实践中实际使用的频率是多少?它似乎有点不稳定(除非我做错了,这是很可能的,因为我的问题。)积极地减少eta。eta太小会减慢收敛速度,但会解决您看到的问题。您的程序中可能还有其他一些bug,因为我没有仔细查看您的代码。eta的选择是一门艺术,因为正确的选择通常取决于您试图最小化的函数的性质。您是正确的-eta应该在每次迭代中降低。我在维基百科关于梯度下降的文章中找到了一个很好的公式,它很有效。我将更新我的问题以显示它。
1 : 44114.31506051333
2 : 98203544.03067812
3 : 218612547944.95386
4 : 486657040646682.9
5 : 1.083355358314664e+18
6 : 2.411675439503567e+21
7 : 5.368670935963926e+24
8 : 1.1951287949674022e+28
9 : 2.660496151835357e+31
10 : 5.922574875391406e+34
11 : 1.3184342751414824e+38
---------------------------------------------------------------------------
Exception                                 Traceback (most recent call last)
......
Exception: Failed to converge
def eta_t (w_t, w_t_minus_1, grad_t, grad_t_minus_1):
    delta_w = w_t - w_t_minus_1
    delta_grad = grad_t - grad_t_minus_1

    eta_t = (delta_w.T @ delta_grad) / (LA.norm(delta_grad))**2

    return eta_t