Java 为什么有时我的神经网络中会出现NaN？_Java_Neural Network_Backpropagation_Feed Forward

Java 为什么有时我的神经网络中会出现NaN？

java neural-network

Java 为什么有时我的神经网络中会出现NaN？,java,neural-network,backpropagation,feed-forward,Java,Neural Network,Backpropagation,Feed Forward,我最近利用youtube上的一系列视频编写了一个神经网络，该频道正在对火车进行编码。它是用js编写的，我是用java编写的。它有时工作正常，但其他时候我把NaN作为输出，我不知道为什么有人能帮忙吗？有一个矩阵类的一些矩阵数学和神经网络类它自己的测试问题。如果0大于1，则第一个输出为1；如果大于1，则第二个输出为1 编辑：我找到了问题所在，但我还是不明白为什么会发生？！在我的矩阵类中的静态点积方法中。有时一个或两个矩阵数据都是NaN 编辑2：我检查过了，输入在构造函数中是有效的，但在前馈方

我最近利用youtube上的一系列视频编写了一个神经网络，该频道正在对火车进行编码。它是用js编写的，我是用java编写的。它有时工作正常，但其他时候我把NaN作为输出，我不知道为什么

有人能帮忙吗？有一个矩阵类的一些矩阵数学和神经网络类它自己的测试问题。如果0大于1，则第一个输出为1；如果大于1，则第二个输出为1

编辑：我找到了问题所在，但我还是不明白为什么会发生？！在我的矩阵类中的静态点积方法中。有时一个或两个矩阵数据都是NaN

编辑2：我检查过了，输入在构造函数中是有效的，但在前馈方法中它们有时是无效的！！！可能是因为我用的是一台10年前的笔记本电脑？！因为代码似乎没有任何问题

已解决：我发现了问题！在前馈中，我没有为输出矩阵映射sigmoid-_-

public class NeuralNetwork {

//private int inputNodes, hiddenNodes, outputNodes;
private Matrix weightsIH, weightsHO, biasH, biasO;
private double learningRate = 0.1;

public NeuralNetwork(int inputNodes, int hiddenNodes, int outputNodes) {
    //this.inputNodes = inputNodes;
    //this.hiddenNodes = hiddenNodes;
    //this.outputNodes = outputNodes;

    weightsIH = new Matrix(hiddenNodes, inputNodes);
    weightsHO = new Matrix(outputNodes, hiddenNodes);
    weightsIH.randomize();
    weightsHO.randomize();

    biasH = new Matrix(hiddenNodes, 1);
    biasO = new Matrix(outputNodes, 1);

    biasH.randomize();
    biasO.randomize();
}

public void setLearningRate(double learningRate) {
    this.learningRate = learningRate;
}

public double sigmoid(double x) {
    return 1 / (1 + Math.exp(-x));
}

public double dsigmoid(double y) {
    return y * (1 - y);
}

public double[] feedForward(double[] inputArray) throws Exception {

    Matrix inputs = Matrix.fromArray(inputArray);
    Matrix hidden = Matrix.dot(weightsIH, inputs);
    hidden.add(biasH);

    hidden.map(f -> sigmoid(f));

    Matrix output = Matrix.dot(weightsHO, hidden);
    output.add(biasO);

    return output.toArray();
}

public void train(double[] inputArray, double[] targetsArray) throws Exception {

    Matrix targets = Matrix.fromArray(targetsArray);

    // feed forward algorithm //
    Matrix inputs = Matrix.fromArray(inputArray);
    Matrix hidden = Matrix.dot(weightsIH, inputs);
    hidden.add(biasH);

    hidden.map(f -> sigmoid(f));

    Matrix outputs = Matrix.dot(weightsHO, hidden);
    outputs.add(biasO);
    // feed forward algorithm //

    // Calculate outputs ERRORS
    Matrix outputErrors = Matrix.subtract(targets, outputs);

    // Calculate outputs Gradients
    Matrix outputsGradients = Matrix.map(outputs, f -> dsigmoid(f));
    outputsGradients.multiply(outputErrors);
    outputsGradients.multiply(learningRate);

    // Calculate outputs Deltas
    Matrix hidden_t = Matrix.transpose(hidden);
    Matrix weightsHO_deltas = Matrix.dot(outputsGradients, hidden_t);

    // adjust outputs weights
    weightsHO.add(weightsHO_deltas);
    // adjust outputs bias
    biasO.add(outputsGradients);

    // Calculate hidden layer ERRORS
    Matrix weightsHO_t = Matrix.transpose(weightsHO);
    Matrix hiddenErrors = Matrix.dot(weightsHO_t, outputErrors);

    // Calculate hidden Gradients
    Matrix hiddenGradients = Matrix.map(hidden, f -> dsigmoid(f));
    hiddenGradients.multiply(hiddenErrors);
    hiddenGradients.multiply(learningRate);

    // Calculate hidden Deltas
    Matrix inputs_t = Matrix.transpose(inputs);
    Matrix weightsIH_deltas = Matrix.dot(hiddenGradients, inputs_t);

    // adjust hidden weights
    weightsIH.add(weightsIH_deltas);
    // adjust hidden bias
    biasH.add(hiddenGradients);

}

public static void print(double[] data) {
    for (double d : data) {
        System.out.print(d + " ");
    }
    System.out.println();
}

public static void main(String[] args) {
    NeuralNetwork nn = new NeuralNetwork(3, 4, 2);
    double[][] trainingInputs = {{0, 0, 0}, {0, 0, 1}, {0, 1, 0}, {0, 1, 1}, {1, 0, 0}, {1, 0, 1}, {1, 1, 0}, {1, 1, 1}};
    double[][] targets = {{1, 0}, {1, 0}, {1, 0}, {0, 1}, {1, 0}, {0, 1}, {0, 1}, {1, 0}};

    for (int i = 0; i < 10000; i++) {
        for (int j = 0; j < trainingInputs.length; j++) {
            try {
                nn.train(trainingInputs[j], targets[j]);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    double[] output;

    try {
        output = nn.feedForward(new double[]{0, 0, 0});
        print(output);
        output = nn.feedForward(new double[]{0, 0, 1});
        print(output);
        output = nn.feedForward(new double[]{0, 1, 0});
        print(output);
        output = nn.feedForward(new double[]{0, 1, 1});
        print(output);
        output = nn.feedForward(new double[]{1, 0, 0});
        print(output);
        output = nn.feedForward(new double[]{1, 0, 1});
        print(output);
        output = nn.feedForward(new double[]{1, 1, 0});
        print(output);
        output = nn.feedForward(new double[]{1, 1, 1});
        print(output);
    } catch (Exception e) {
        e.printStackTrace();
    }
} }


public class Matrix {

public double[][] data;

public Matrix(int row, int col) {
    data = new double[row][col];
}

public Matrix(double[][] data) {

    this.data = data;
}

public void randomize() {
    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            data[i][j] = new Random().nextDouble() * 2 - 1;
        }
    }
}

public Matrix transpose() {
    Matrix result = new Matrix(data[0].length, data.length);

    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            result.data[j][i] = data[i][j];
        }
    }
    return result;
}

public static Matrix transpose(Matrix m) {
    Matrix result = new Matrix(m.data[0].length, m.data.length);

    for (int i = 0; i < m.data.length; i++) {
        for (int j = 0; j < m.data[0].length; j++) {
            result.data[j][i] = m.data[i][j];
        }
    }
    return result;
}

public void add(double n) {
    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            data[i][j] += n;
        }
    }
}

public void subtract(double n) {
    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            data[i][j] -= n;
        }
    }
}

public void add(Matrix m) throws Exception {
    if (!(data.length == m.data.length && data[0].length == m.data[0].length)) 
        throw new Exception("columns and rows don't match!");

    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            data[i][j] += m.data[i][j];
        }
    }
}

public void subtract(Matrix m) throws Exception {
    if (!(data.length == m.data.length && data[0].length == m.data[0].length))
        throw new Exception("columns and rows don't match!");

    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            data[i][j] -= m.data[i][j];
        }
    }
}

public static Matrix add(Matrix m1, Matrix m2) throws Exception {
    if (!(m1.data.length == m2.data.length && m1.data[0].length == m2.data[0].length)) 
        throw new Exception("columns and rows don't match!");

    Matrix result = new Matrix(m1.data.length, m1.data[0].length);

    for (int i = 0; i < result.data.length; i++) {
        for (int j = 0; j < result.data[0].length; j++) {
            result.data[i][j] = m1.data[i][j] + m2.data[i][j];
        }
    }

    return result;
}

public static Matrix subtract(Matrix m1, Matrix m2) throws Exception {
    if (!(m1.data.length == m2.data.length && m1.data[0].length == m2.data[0].length)) 
        throw new Exception("columns and rows don't match!");

    Matrix result = new Matrix(m1.data.length, m1.data[0].length);

    for (int i = 0; i < result.data.length; i++) {
        for (int j = 0; j < result.data[0].length; j++) {
            result.data[i][j] = m1.data[i][j] - m2.data[i][j];
        }
    }

    return result;
}

public void multiply(double n) {
    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            data[i][j] *= n;
        }
    }
}

public void multiply(Matrix m) throws Exception {
    if (!(data.length == m.data.length && data[0].length == m.data[0].length)) 
        throw new Exception("columns and rows don't match!");

    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            data[i][j] *= m.data[i][j];
        }
    }
}

public static Matrix multiply(Matrix m1, Matrix m2) throws Exception {
    if (!(m1.data.length == m2.data.length && m1.data[0].length == m2.data[0].length)) 
        throw new Exception("columns and rows don't match!");

    Matrix result = new Matrix(m1.data.length, m1.data[0].length);
    for (int i = 0; i < m1.data.length; i++) {
        for (int j = 0; j < m1.data[0].length; j++) {
            result.data[i][j] = m1.data[i][j] * m2.data[i][j];
        }
    }

    return result;
}

public Matrix dot(Matrix m) throws Exception {
    if (data[0].length != m.data.length) 
        throw new Exception("columns and rows don't match!");

    Matrix result = new Matrix(data.length, m.data[0].length);

    for (int i = 0; i < result.data.length; i++) {
        for (int j = 0; j < result.data[0].length; j++) {
            double sum = 0;
            for (int k = 0; k < data[0].length; k++) {
                sum += data[i][k] * m.data[k][j];
            }
            result.data[i][j] = sum;
        }
    }

    return result;
}

public static Matrix dot(Matrix m1, Matrix m2) throws Exception {
    if (m1.data[0].length != m2.data.length) 
        throw new Exception("columns and rows don't match!");

    Matrix result = new Matrix(m1.data.length, m2.data[0].length);

    for (int i = 0; i < result.data.length; i++) {
        for (int j = 0; j < result.data[0].length; j++) {
            double sum = 0;
            for (int k = 0; k < m1.data[0].length; k++) {
                sum += m1.data[i][k] * m2.data[k][j];
            }
            result.data[i][j] = sum;
        }
    }

    return result;
}

public static interface Func {

    public double method(double d);
}

public void map(Func f) {
    for (int i = 0 ; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            data[i][j] = f.method(data[i][j]);
        }
    }
}

public static Matrix map(Matrix m, Func f) {
    Matrix result = new Matrix(m.data.length, m.data[0].length);
    for (int i = 0 ; i < m.data.length; i++) {
        for (int j = 0; j < m.data[0].length; j++) {
            result.data[i][j] = f.method(m.data[i][j]);
        }
    }

    return result;
}

public static Matrix fromArray(double[] arr) {

    Matrix res = new Matrix(arr.length, 1);
    for (int i = 0; i < arr.length; i++) {
        res.data[i][0] = arr[i];
    }
    return res;
}

public double[] toArray() {
    double[] res = new double[data.length];

    for (int i = 0; i < data.length; i++) {
        res[i] = data[i][0];
    }

    return res;
}

public void print() {
    for (int i = 0; i < data.length; i++) {
        for (int j = 0; j < data[0].length; j++) {
            System.out.print(data[i][j] + " ");
        }
        System.out.println();
    }
}}

公共类神经网络{
//私有int输入节点、hiddenneds、outputNodes；
私有矩阵权重sih，weightsHO，biasH，biasO；
私人双重学习率=0.1；
公共神经网络（int-inputNodes、int-HiddeNodes、int-outputNodes）{
//this.inputNodes=inputNodes；
//this.hiddenneds=hiddenneds；
//this.outputNodes=outputNodes；
权重Sih=新矩阵（hiddenNodes、inputNodes）；
weightsHO=新矩阵（输出节点、隐藏节点）；
权重sih.随机化（）；
weightsHO.randomize（）；
biasH=新矩阵（hiddenNodes，1）；
biasO=新矩阵（outputNodes，1）；
biasH.随机化（）；
biasO.随机化（）；
}
公共无效设置学习率（双学习率）{
this.learningRate=learningRate；
}
公共双乙状结肠（双x）{
返回1/（1+Math.exp（-x））；
}
公共双D乙状体（双y）{
返回y*（1-y）；
}
公共双[]前馈（双[]输入阵列）引发异常{
矩阵输入=矩阵.fromArray（inputArray）；
矩阵隐藏=矩阵点（权重Sih，输入）；
隐藏。添加（biasH）；
图（f->sigmoid（f））；
矩阵输出=矩阵.dot（weightsHO，隐藏）；
输出。添加（biasO）；
返回输出.toArray（）；
}
公共无效序列（双[]输入阵列，双[]目标阵列）引发异常{
矩阵目标=矩阵.fromArray（targetsArray）；
//前馈算法//
矩阵输入=矩阵.fromArray（inputArray）；
矩阵隐藏=矩阵点（权重Sih，输入）；
隐藏。添加（biasH）；
图（f->sigmoid（f））；
矩阵输出=矩阵.dot（weightsHO，隐藏）；
输出。添加（biasO）；
//前馈算法//
//计算输出误差
矩阵输出器=矩阵减法（目标、输出）；
//计算输出梯度
矩阵输出梯度=Matrix.map（输出，f->dsigomoid（f））；
输出梯度。乘法（输出者）；
输出梯度。乘法（学习率）；
//计算输出三角洲
矩阵隐藏\u t=矩阵转置（隐藏）；
矩阵权重SHO_delta=矩阵点（输出梯度，隐藏）；
//调整输出权重
加权叠加（加权三角洲）；
//调整输出偏差
添加（输出梯度）；
//计算隐藏层错误
矩阵权重sho_t=矩阵转置（权重sho）；
矩阵hiddenErrors=矩阵点（权重、输出器）；
//计算隐藏的渐变
矩阵hiddenGradients=Matrix.map（隐藏，f->dsigomoid（f））；
hiddenGradients.multiply（hiddenErrors）；
hiddenGradients.multiply（学习率）；
//计算隐藏三角洲
矩阵输入\u t=矩阵转置（输入）；
矩阵权重Sih_delta=矩阵点（隐藏梯度，输入）；
//调整隐藏权重
加权Sih.add（加权Sih_三角洲）；
//调整隐藏偏差
添加（隐藏梯度）；
}
公共静态无效打印（双[]数据）{
用于（双d：数据）{
系统输出打印（d+“”）；
}
System.out.println（）；
}
公共静态void main（字符串[]args）{
神经网络nn=新的神经网络（3,4,2）；
double[]trainingInputs={{0,0,0}，{0,0,1}，{0,1,0}，{0,1,1}，{1,0,0}，{1,0,1}，{1,1,0}，{1,1,1}；
双[][]目标={{1,0}，{1,0}，{1,0}，{0,1}，{1,0}，{0,1}，{0,1}，{0,1}，{1,0}；
对于（int i=0；i<10000；i++）{
对于（int j=0；jpublic double sigmoid(double x) {
    return 1 / (1 + Math.exp(-x));
}


public double sigmoid(double x) {
    double sigmoid = 1 / (1 + Math.exp(-x));
    System.out.println("1 / (1 + Math.exp(" + (-x) + ")) = " + sigmoid);
    return sigmoid;
}

public double sigmoid(double x) {
    double sigmoid = 1 / (1 + Math.exp(-x));
    if(sigmoid == Double.NaN)
        System.out.println("1 / (1 + Math.exp(" + (-x) + ")) = " + sigmoid);
    return sigmoid;
}