Python 岭回归的梯度下降法
我正在尝试编写一个代码,使用梯度下降返回岭回归的参数。岭回归定义为 式中,L是损失(或成本)函数。w是损失函数的参数(吸收b)。x是数据点。y是每个向量x的标签。lambda是一个正则化常数。b是截距参数(被同化为w)。所以,L(w,b)=个数 我应该实现的梯度下降算法如下所示: 在哪里∇ 是L相对于w的梯度。η 是一个步长。t是时间或迭代计数器 我的代码:Python 岭回归的梯度下降法,python,numpy,machine-learning,gradient-descent,Python,Numpy,Machine Learning,Gradient Descent,我正在尝试编写一个代码,使用梯度下降返回岭回归的参数。岭回归定义为 式中,L是损失(或成本)函数。w是损失函数的参数(吸收b)。x是数据点。y是每个向量x的标签。lambda是一个正则化常数。b是截距参数(被同化为w)。所以,L(w,b)=个数 我应该实现的梯度下降算法如下所示: 在哪里∇ 是L相对于w的梯度。η 是一个步长。t是时间或迭代计数器 我的代码: def ridge_regression_GD(x,y,C): x=np.insert(x,0,1,axis=1) # ad
def ridge_regression_GD(x,y,C):
x=np.insert(x,0,1,axis=1) # adding a feature 1 to x at beggining nxd+1
w=np.zeros(len(x[0,:])) # d+1
t=0
eta=1
summ = np.zeros(1)
grad = np.zeros(1)
losses = np.array([0])
loss_stry = 0
while eta > 2**-30:
for i in range(0,len(y)): # here we calculate the summation for all rows for loss and gradient
summ=summ+((y[i,]-np.dot(w,x[i,]))*x[i,])
loss_stry=loss_stry+((y[i,]-np.dot(w,x[i,]))**2)
losses=np.insert(losses,len(losses),loss_stry+(C*np.dot(w,w)))
grad=((-2)*summ)+(np.dot((2*C),w))
eta=eta/2
w=w-(eta*grad)
t+=1
summ = np.zeros(1)
loss_stry = 0
b=w[0]
w=w[1:]
return w,b,losses
输出应为截距参数b、向量w和每次迭代中的损耗损耗
我的问题是,当我运行代码时,我得到了w和损失的递增值,两者的顺序都是10^13
如果你能帮我,我将不胜感激。如果你需要任何更多的信息或澄清,就要求它
注意:此帖子已从交叉验证论坛中删除。如果有更好的论坛发布,请让我知道。在我检查了你的代码后,发现你的岭回归实现是正确的,
w
的值增加导致损失增加的问题是由于参数的极端和不稳定的更新值(即abs(eta*grad)
太大),因此,我将学习率和权重衰减率调整到适当的范围,并改变衰减学习率的方式,然后一切按预期进行:
import numpy as np
sample_num = 100
x_dim = 10
x = np.random.rand(sample_num, x_dim)
w_tar = np.random.rand(x_dim)
b_tar = np.random.rand(1)[0]
y = np.matmul(x, np.transpose([w_tar])) + b_tar
C = 1e-6
def ridge_regression_GD(x,y,C):
x = np.insert(x,0,1,axis=1) # adding a feature 1 to x at beggining nxd+1
x_len = len(x[0,:])
w = np.zeros(x_len) # d+1
t = 0
eta = 3e-3
summ = np.zeros(x_len)
grad = np.zeros(x_len)
losses = np.array([0])
loss_stry = 0
for i in range(50):
for i in range(len(y)): # here we calculate the summation for all rows for loss and gradient
summ = summ + (y[i,] - np.dot(w, x[i,])) * x[i,]
loss_stry += (y[i,] - np.dot(w, x[i,]))**2
losses = np.insert(losses, len(losses), loss_stry + C * np.dot(w, w))
grad = -2 * summ + np.dot(2 * C,w)
w -= eta * grad
eta *= 0.9
t += 1
summ = np.zeros(1)
loss_stry = 0
return w[1:], w[0], losses
w, b, losses = ridge_regression_GD(x, y, C)
print("losses: ", losses)
print("b: ", b)
print("b_tar: ", b_tar)
print("w: ", w)
print("w_tar", w_tar)
x_pre = np.random.rand(3, x_dim)
y_tar = np.matmul(x_pre, np.transpose([w_tar])) + b_tar
y_pre = np.matmul(x_pre, np.transpose([w])) + b
print("y_pre: ", y_pre)
print("y_tar: ", y_tar)
产出:
losses: [ 0 1888 2450 2098 1128 354 59 5 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1]
b: 1.170527138363387
b_tar: 0.894306608050021
w: [0.7625987 0.6027163 0.58350218 0.49854847 0.52451963 0.59963663
0.65156702 0.61188389 0.74257133 0.67164963]
w_tar [0.82757802 0.76593551 0.74074476 0.37049698 0.40177269 0.60734677
0.72304859 0.65733725 0.91989305 0.79020028]
y_pre: [[3.44989377]
[4.77838804]
[3.53541958]]
y_tar: [[3.32865041]
[4.74528037]
[3.42093559]]
从输出时的损失变化中可以看出,学习率
eta=3e-3
仍然是两位数,因此在最初的几次训练中,损失会增加,但当学习率衰减到适当的值时,损失会开始下降。非常感谢,我在想到底是什么错了。我不认为步长如此重要,但在我看来,它是非常合理的,因为一开始,松弛度增加过多(表示w调整过多),然后又减小并保持不变。@immb31很高兴提供帮助:)