Python 神经网络训练平台中的梯度下降法_Python_Numpy_Machine Learning_Neural Network_Gradient Descent

Python 神经网络训练平台中的梯度下降法

python numpy machine-learning neural-network

Python 神经网络训练平台中的梯度下降法,python,numpy,machine-learning,neural-network,gradient-descent,Python,Numpy,Machine Learning,Neural Network,Gradient Descent,我一直在尝试用python实现一个基本的反向传播神经网络，并且已经完成了初始化和训练权重集的编程。然而，在我训练的所有集合上，误差（均方）总是收敛到一个奇怪的数字——误差总是在进一步迭代时减小，但永远不会真正接近零。任何帮助都将不胜感激 import csv import numpy as np class NeuralNetwork: layers = 0 shape = None weights = [] layerIn = [] layerOut = [] def __init__

我一直在尝试用python实现一个基本的反向传播神经网络，并且已经完成了初始化和训练权重集的编程。然而，在我训练的所有集合上，误差（均方）总是收敛到一个奇怪的数字——误差总是在进一步迭代时减小，但永远不会真正接近零。
任何帮助都将不胜感激

import csv
import numpy as np

class NeuralNetwork:
layers = 0
shape = None
weights = []

layerIn = []
layerOut = []

def __init__(self, shape):
    self.shape = shape
    self.layers = len(shape) - 1

    for i in range(0,self.layers):
        n = shape[i]
        m = shape[i+1]
        self.weights.append(np.random.normal(scale=0.2, size = (m,n+1)))

def sgm(self, x):
    return 1/(1+np.exp(-x))

def dersgm(self, x):
    y = self.sgm(x)
    return y*(y-1)


def run(self, input):
    self.layerIn = []
    self.layerOut = []

    for i in range(self.layers):
        if i == 0:
            layer = self.weights[0].dot(np.vstack((input.transpose(), np.ones([1,input.shape[0]]))))
        else:
            layer = self.weights[i].dot(np.vstack((self.layerOut[-1], np.ones([1,input.shape[0]]))))
        self.layerIn.append(layer)
        self.layerOut.append(self.sgm(layer))

    return self.layerOut[-1].T

def backpropogate(self, input, y, learning_rate):
    deltas = []
    y_hat = self.run(input)

    #Calculate deltas
    for i in reversed(range(self.layers)):

        #for last layer
        if i == self.layers-1:
            error = y_hat - y
            msq_error = sum(.5 * ((error) ** 2))
            #returns delta, k rows for k inputs, m columns for m nodes
            deltas.append(error * self.dersgm(y_hat))
        else:

            error = deltas[-1].dot(self.weights[i+1][:,:-1])
            deltas.append(self.dersgm(self.layerOut[i]).T * error)

    #Calculate weight-deltas
    wdelta = []
    ordered_deltas = list(reversed(deltas)) #reverse order because created backwards

    #returns weight deltas, k rows for k nodes, m columns for m next layer nodes
    for i in range(self.layers):
        if i == 0:
            #add bias
            input_with_bias = np.vstack((input.T, np.ones(input.shape[0])))
            #some over n rows of deltas for n training examples to get one delta for all examples
            #for all nodes
            wdelta.append(ordered_deltas[i].T.dot(input_with_bias.T))
        else:
            with_bias = np.vstack((self.layerOut[i-1], np.ones(input.shape[0])))
            wdelta.append(ordered_deltas[i].T.dot(with_bias.T))



    #update_weights
    def update_weights(self, weight_deltas, learning_rate):
        for i in range(self.layers):
            self.weights[i] = self.weights[i] +\
                              (learning_rate * weight_deltas[i])


    update_weights(self, wdelta, learning_rate)

    return msq_error

    #end backpropogate

def train(self, input, target, lr, run_iter):
    for i in range(run_iter):
        if i % 100000 == 0:
            print self.backpropogate(input, target, lr)

以下场景中的误差函数不能为0，因为误差函数为0将要求点与曲线完全匹配

拥有更多的神经元肯定会减少误差，因为函数可以有更复杂和精确的形状。但是，如果数据拟合得太好，就会出现一个称为过度拟合的问题，如下图所示。从左到右，曲线要么对数据集拟合不足，几乎正确地拟合了数据集，要么在右侧拟合过差

右侧的场景将导致错误为0，但这不是所需的，您希望避免这种情况。怎么做

判断网络中神经元数量是否理想（进行良好拟合）的最简单方法是反复试验。将数据拆分为培训数据（80%用于培训网络）和测试数据（20%保留，仅用于培训后测试网络）。虽然只对训练数据进行训练，但可以在测试数据集上绘制性能

您还可以使用第三个数据集进行验证，请参见：

输入和目标（形状）的外观如何？输入是4x2矩阵，目标是4x1矩阵（列向量）。梯度下降对输入的缩放和步长不合适感到不安。。。你检查过这些东西吗？您是否对上述代码进行了测试，以确保计算的梯度是正确的等？我将指出，以防您不知道，有几个易于使用的开源Python工具包来实现ANN。所以，除非你把它作为一种学习练习，否则就没有必要重新发明轮子。你为什么认为误差应该为零？这实际上是一个不好的迹象，它表明了一个叫做过度拟合的问题，这意味着你的人工神经网络在看不见的样本上不能很好地工作（糟糕的泛化）。你通常不希望它为零，也很难使它达到绝对零，因为你要最小化的函数不是凸的。