Keras 在同一时期，该LSTM的损耗和精度均降至接近0_Keras_Deep Learning_Lstm

Keras 在同一时期，该LSTM的损耗和精度均降至接近0

keras deep-learning

Keras 在同一时期，该LSTM的损耗和精度均降至接近0,keras,deep-learning,lstm,Keras,Deep Learning,Lstm,我试图训练一个LSTM，使用前面的N-1标记预测N标记对于每一个热编码令牌，我尝试预测下一个令牌。经过三层LSTM后，结果被送入密集层（用heTimeDistributedlayer包装器包装），以将结果重新编码为同一个热编码奇怪的是，经过几个时代之后，准确度（训练和验证）下降到接近0（坏消息），而损失也下降到接近0（好消息？）为什么会发生这种情况？我知道，我不能期望损失和准确度总是朝着相反的方向发展（因为损失在所有类别中使用分类交叉熵，而准确度仅使用最佳或k最佳类别），但是——这种行

我试图训练一个LSTM，使用前面的

N-1

标记预测

标记

对于每一个热编码令牌，我尝试预测下一个令牌。经过三层LSTM后，结果被送入密集层（用he

TimeDistributed

layer包装器包装），以将结果重新编码为同一个热编码

奇怪的是，经过几个时代之后，准确度（训练和验证）下降到接近0（坏消息），而损失也下降到接近0（好消息？）

为什么会发生这种情况？我知道，我不能期望损失和准确度总是朝着相反的方向发展（因为损失在所有类别中使用分类交叉熵，而准确度仅使用最佳或k最佳类别），但是——这种行为是非常意外和无法解释的

这是什么原因？我做错什么了吗？我应该如何更改代码以使我的网络朝着越来越准确的预测前进

我的代码如下：

import numpy as np
import glob

import keras
from keras.models import Sequential
from keras.layers import LSTM, Dense, TimeDistributed,Lambda, Dropout, Activation
from keras.metrics import top_k_categorical_accuracy
from keras.callbacks import ModelCheckpoint

###
import matplotlib
matplotlib.use('Agg') # prevents it from failing when there is no display
import matplotlib.pyplot as plt
import keras.backend as K
###

name='Try_6'
model_designation=str(name)+'_'

train_val_split=0.2 # portion to be placed in validation


train_control_number=0
val_control_number=0
batch_size = 16

def my_3D_top_5(true, pred):
    features_num=int(list(pred.shape)[-1])

    true = K.reshape(true, (-1, features_num))   
    pred = K.reshape(pred, (-1, features_num))
    return top_k_categorical_accuracy(true, pred, k=5)

def my_3D_top_10(true, pred):
    features_num=int(list(pred.shape)[-1])

    true = K.reshape(true, (-1, features_num))   
    pred = K.reshape(pred, (-1, features_num))
    return top_k_categorical_accuracy(true, pred, k=10)



def basic_LSTM(features_num):
    model = Sequential()
    model.add(LSTM(40, return_sequences=True, input_shape=(None, features_num)))
    model.add(LSTM(40, return_sequences=True))
    model.add(LSTM(40, return_sequences=True))

    model.add(TimeDistributed(Dense(features_num)))
    model.add(Activation('linear')) 

    print(model.summary())
    model.compile(loss='categorical_crossentropy', optimizer='adam',metrics=['accuracy',my_3D_top_5,my_3D_top_10])  
    return (model)


def main ():
    input_files=glob.glob('*npy')
    data_list,dim=loader(input_files)
    train_list,val_list=data_spliter(data_list)

    train_list=group_data(train_list,batch_size)
    val_list=group_data(val_list,batch_size)

    filepath = "saved-model-"+model_designation+"-{epoch:02d}.hdf5"
    checkpoint = ModelCheckpoint(filepath, save_best_only=False)
    callbacks_list=[checkpoint] 


    model=basic_LSTM(dim)
    history=model.fit_generator(train_generator(train_list), steps_per_epoch=len(train_list), epochs=30, verbose=1,validation_data=val_generator(val_list),validation_steps=len(val_list),callbacks=callbacks_list)
    report(history)


def group_data(data_list,size):  # groups data and elongate it to match
    output=[]
    list_of_sizes=[]
    for data in data_list:
        list_of_sizes.append(list(data.shape)[1]) 

    data_list = [x for _, x in sorted(zip(list_of_sizes,data_list), key=lambda pair: pair[0])]

    while len(data_list)>size:
        this=data_list[:size]
        data_list=data_list[size:]
        combined=(elongate_and_combine(this))
        output.append(combined)


    combined=(elongate_and_combine(data_list))
    output.append(combined)


    return (output)

def elongate_and_combine(data_list):

    max_length= (list(data_list[-1].shape)[1]) 
    last_element=list.pop(data_list)
    output=last_element




    stop_codon=last_element[0,(max_length-1),:]
    stop_codon=stop_codon.reshape(1,1,stop_codon.size)

    for data in data_list:
        size_of_data=list(data.shape)[1]
        while size_of_data<max_length:
            data=np.append(data, stop_codon, axis=1)
            size_of_data=list(data.shape)[1]
        output=np.append(output, data, axis=0)


    return (output)


def train_generator(data_list):
    while True:
        global train_control_number
        train_control_number=cycle_throught(len(data_list),train_control_number)
        #print (train_control_number)       
        this=data_list[train_control_number]


        x_train = this [:,:-1,:] # all but the last 1
        y_train = this [:,1:,:] # all but the first 1

        yield (x_train, y_train)




def val_generator(data_list):
    while True:
        global val_control_number
        val_control_number=cycle_throught(len(data_list),val_control_number)
        #print (val_control_number)     
        this=data_list[val_control_number]
        x_train = this [:,:-1,:] # all but the last 1
        y_train = this [:,1:,:] # all but the first 1

        yield (x_train, y_train)



def cycle_throught (total,current):
    current+=1
    if (current==total):
        current=0
    return (current)


def loader(input_files):

    data_list=[]

    for input_file in input_files:
        a=np.load (input_file)
        incoming_shape=list(a.shape)
        requested_shape=[1]+incoming_shape
        a=a.reshape(requested_shape)
        #print (a.shape)
        data_list.append(a)


    return (data_list,incoming_shape[-1])


def data_spliter(input_list):
    val_num=int(len(input_list)*train_val_split)
    validation=input_list[:val_num]
    train=input_list[val_num:]

    return (train,validation)

def report(history) :


    print(history.history.keys())


    acc = history.history['acc']
    val_acc = history.history['val_acc']

    loss = history.history['loss']
    val_loss = history.history['val_loss']

    acc_5=history.history['my_3D_top_5']
    val_acc_5=history.history['val_my_3D_top_5']

    acc_10=history.history['my_3D_top_10']
    val_acc_10=history.history['val_my_3D_top_10']



    epochs = range(1, len(acc) + 1)

    fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10, 6))



    axes[0][0].plot(epochs, acc, 'bo', label='Training acc')
    axes[0][0].plot(epochs, val_acc, 'b', label='Validation acc')
    axes[0][0].set_title('Training and validation accuracy')
    axes[0][0].legend()



    axes[0][1].plot(epochs, loss, 'ro', label='Training loss')
    axes[0][1].plot(epochs, val_loss, 'r', label='Validation loss')
    axes[0][1].set_title('Training and validation loss')
    axes[0][1].legend()

    axes[1][0].plot(epochs, acc_5, 'go', label='Training acc over top 5')
    axes[1][0].plot(epochs, val_acc_5, 'g', label='Validation acc over top 5')
    axes[1][0].set_title('Training and validation accuracy over top 5')
    axes[1][0].legend()

    axes[1][1].plot(epochs, acc_10, 'mo', label='Training acc over top 10')
    axes[1][1].plot(epochs, val_acc_10, 'm', label='Validation acc over top 10')
    axes[1][1].set_title('Training and validation accuracy over top 10')
    axes[1][1].legend()

    fig.tight_layout()
    fig.savefig('fig_'+name+'.png')   # save the figure to file



main()

将numpy导入为np
导入glob
进口干酪
从keras.models导入顺序
从keras.layers导入LSTM、稠密、时间分布、λ、衰减、激活
从keras.metrics导入顶级分类精度
从keras.callbacks导入模型检查点
###
导入matplotlib
matplotlib.use（'Agg'）#防止在没有显示时失败
将matplotlib.pyplot作为plt导入
将keras.backend作为K导入
###
name='Try_6'
型号名称=str（名称）+“UU”
列值分割=0.2#待进行验证的部分
列车控制号=0
val_控制_编号=0
批量大小=16
def my_3D_top_5（正确，预测）：
特性\u num=int（列表（pred.shape）[-1]）
真=K.重塑（真，（-1，特征数量））
pred=K.重塑（pred，（-1，特征数量））
返回top_k_分类精度（true，pred，k=5）
def my_3D_top_10（正确，预测）：
特性\u num=int（列表（pred.shape）[-1]）
真=K.重塑（真，（-1，特征数量））
pred=K.重塑（pred，（-1，特征数量））
返回最高分类精度（真，预测，k=10）
def基本功能（功能数量）：
模型=顺序（）
添加（LSTM（40，返回序列=True，输入形状=（无，特征数）））
model.add（LSTM（40，返回序列=True））
model.add（LSTM（40，返回序列=True））
添加（时间分布（密集（特征数量）））
model.add（激活（'linear'））
打印（model.summary（））
编译（loss='classifical\u crossentropy'，optimizer='adam'，metrics=['accurity'，my\u 3D\u top\u 5，my\u 3D\u top\u 10]）
退货（型号）
defmain（）：
input_files=glob.glob（“*npy”）
数据列表，dim=加载器（输入文件）
列列表，值列表=数据拆分器（数据列表）
列车列表=组数据（列车列表、批次大小）
val_列表=组数据（val_列表、批次大小）
filepath=“保存的模型-”+模型名称+“-{epoch:02d}.hdf5”
checkpoint=ModelCheckpoint（filepath，save\u best\u only=False）
回调\u列表=[检查点]
型号=基本尺寸（dim）
历史=模型。拟合生成器（序列生成器（序列列表），每个历元的步数=len（序列列表），历元数=30，详细度=1，验证数据=val生成器（val列表），验证步骤=len（val列表），回调=回调列表）
报告（历史）
def group_数据（数据列表、大小）：#对数据进行分组并将其拉长以匹配
输出=[]
大小列表=[]
对于数据列表中的数据：
大小的列表。\u.append（list（data.shape）[1]）
data_list=[x代表uuuuuuuux，已排序（zip（大小列表，数据列表），key=lambda pair:pair[0]）]
而len（数据列表）>大小：
此=数据列表[：大小]
数据列表=数据列表[大小：]
组合=（拉长_和_组合（此））
output.append（组合）
组合=（拉长和组合（数据列表））
output.append（组合）
返回（输出）
def拉长_和_组合（数据_列表）：
最大长度=（列表（数据列表[-1]。形状）[1]）
最后一个元素=list.pop（数据列表）
输出=最后一个元素
停止密码子=最后一个元素[0，（最大长度-1），：]
stop_密码子=stop_密码子。重塑（1,1，stop_密码子。大小）
对于数据列表中的数据：
数据的大小=列表（data.shape）[1]
当数据的大小时，图形中的精度和损失下降到0的原因是此时输出变为nan。
这也会导致丢失变为nan
，显然matplotlib
将其视为0。在这种情况下，准确度当然是零
我的错误是在解码层使用线性而不是softmax激活
更换后
model.add(Activation('linear'))

与
该模型没有折叠为nan
，而是提高了精度
小问题：您编写了“在两层LSTM之后，结果将被馈送到一个密集层”，但在您的代码中有三层LSTM。谢谢，您是正确的。我纠正了我的问题。
model.add(Activation('softmax'))