Tensorflow 第一层'；s权重不'；使用Keras时，培训后不得改变_Tensorflow_Keras_Training Data

Tensorflow 第一层'；s权重不'；使用Keras时，培训后不得改变

tensorflow keras

Tensorflow 第一层'；s权重不'；使用Keras时，培训后不得改变,tensorflow,keras,training-data,Tensorflow,Keras,Training Data,以前有人讨论过这个问题，但他们通常会收敛到梯度消失作为这个问题的根源但在我的模型中，只有两个隐藏层不太可能停留在渐变消失上，如下所示： from __future__ import print_function import keras from keras.datasets import mnist from keras.models import Sequential from keras.layers import Dense, Dropout from keras.optimizer

以前有人讨论过这个问题，但他们通常会收敛到梯度消失作为这个问题的根源

但在我的模型中，只有两个隐藏层不太可能停留在渐变消失上，如下所示：

from __future__ import print_function

import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import RMSprop

batch_size = 128
num_classes = 10
epochs = 20

(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255

y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

model = Sequential()
model.add(Dense(512, activation='relu', kernel_initializer='random_uniform',input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(512, kernel_initializer='random_uniform',activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(num_classes, kernel_initializer='random_uniform',activation='softmax'))


print (model.get_weights().__len__())
for i in range(6):
    print (str(i), "th layer shape: ", model.get_weights()[i].shape ,model.get_weights()[i].__len__(), "mean: ", np.mean(model.get_weights()[i]), "std dev: ", np.std(model.get_weights()[i]))
    print ("Before Training")
    print (model.get_weights()[i][0])


class LossHistory(keras.callbacks.Callback):
    def on_train_begin(self, logs={}):
        self.losses = []

    def on_batch_end(self, batch, logs={}):
        self.losses.append(logs.get('loss'))

batch_history = LossHistory()

model.summary()

model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test),
                    callbacks = [batch_history])

for i in range(6):
    print (str(i), "th layer shape: ", model.get_weights()[i].shape ,model.get_weights()[i].__len__(), "mean: ", np.mean(model.get_weights()[i]), "std dev: ", np.std(model.get_weights()[i]))
    print ("After Training Training")
    print (model.get_weights()[i][0])

我在训练前/训练后拍摄了重量的截图。总之，训练后第一层的重量不会改变，但第二层的重量会改变。（由于参数较多，我仅显示权重矩阵第一行的一部分）

第一层：训练前

第一层：训练后

第二层：训练前第二层：训练后

经过一些调试后，我意识到权重矩阵在训练后确实发生了变化，尽管（784512）矩阵的第一行（在屏幕截图中）看起来从未发生过变化

原因是我使用的是预处理的mnist数据，这是一个手写数字图像数据集，只有带有墨水的部分才会用特定的RGB值进行编码。换句话说，这些边缘区域都是“0”。例如，图像2d矩阵的第一行始终为“0”。因此，在第一隐藏层的权重矩阵内，512个权重向量中每一个的第一个条目将始终使用（dJ/da_1）*（da_1/dw_i1）更新，而（da_1/dw_i1）=x_1，其在如上所述的所有训练样本中为“0”。所以它永远不会更新。

经过一些调试后，我意识到权重矩阵在训练后确实发生了变化，即使（784512）矩阵的第一行（在屏幕截图中）看起来从未发生过变化

如果看不到代码的其余部分，就很难知道。@StephaneBersier刚刚更新了代码的其余部分。希望这能让您更清楚它仍然缺少一些代码，但现在我注意到您使用了

'random\u uniform'

来初始化权重，这通常不是一个好的初始化器。你试过用普通的初始化吗？事实上，这在你的情况下应该没什么关系。没关系。你能发布训练前后输出重量的代码吗？另外，我想知道

EPOCHS

的值，但看不到其余的代码，很难知道。@StephaneBersier刚刚更新了其余的代码。希望这能让您更清楚它仍然缺少一些代码，但现在我注意到您使用了

'random\u uniform'

EPOCHS