Python Keras精度不变_Python_Audio_Machine Learning_Theano_Keras

Python Keras精度不变

python audio machine-learning keras

Python Keras精度不变,python,audio,machine-learning,theano,keras,Python,Audio,Machine Learning,Theano,Keras,我有几千个音频文件，我想用Keras和Theano对它们进行分类。到目前为止，我为每个音频文件生成了一个28x28的光谱图（可能越大越好，但我只是想让算法在这一点上起作用），并将图像读取到一个矩阵中。所以最后我得到了这个大的图像矩阵，将其输入到网络中进行图像分类在一个教程中，我发现了以下mnist分类代码： import numpy as np from keras.datasets import mnist from keras.models import Sequential from

我有几千个音频文件，我想用Keras和Theano对它们进行分类。到目前为止，我为每个音频文件生成了一个28x28的光谱图（可能越大越好，但我只是想让算法在这一点上起作用），并将图像读取到一个矩阵中。所以最后我得到了这个大的图像矩阵，将其输入到网络中进行图像分类

在一个教程中，我发现了以下mnist分类代码：

import numpy as np

from keras.datasets import mnist
from keras.models import Sequential
from keras.layers.core import Dense
from keras.utils import np_utils

batch_size = 128
nb_classes = 10
nb_epochs = 2

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(60000, 784)
X_test = X_test.reshape(10000, 784)
X_train = X_train.astype("float32")
X_test = X_test.astype("float32")
X_train /= 255
X_test /= 255

print(X_train.shape[0], "train samples")
print(X_test.shape[0], "test samples")

y_train = np_utils.to_categorical(y_train, nb_classes)
y_test =  np_utils.to_categorical(y_test, nb_classes)

model = Sequential()

model.add(Dense(output_dim = 100, input_dim = 784, activation= "relu"))
model.add(Dense(output_dim = 200, activation = "relu"))
model.add(Dense(output_dim = 200, activation = "relu"))
model.add(Dense(output_dim = nb_classes, activation = "softmax"))

model.compile(optimizer = "adam", loss = "categorical_crossentropy")

model.fit(X_train, y_train, batch_size = batch_size, nb_epoch = nb_epochs, show_accuracy = True, verbose = 2, validation_data = (X_test, y_test))
score = model.evaluate(X_test, y_test, show_accuracy = True, verbose = 0)
print("Test score: ", score[0])
print("Test accuracy: ", score[1])

这段代码运行时，我得到了预期的结果：

(60000L, 'train samples')
(10000L, 'test samples')
Train on 60000 samples, validate on 10000 samples
Epoch 1/2
2s - loss: 0.2988 - acc: 0.9131 - val_loss: 0.1314 - val_acc: 0.9607
Epoch 2/2
2s - loss: 0.1144 - acc: 0.9651 - val_loss: 0.0995 - val_acc: 0.9673
('Test score: ', 0.099454972004890438)
('Test accuracy: ', 0.96730000000000005)

到目前为止，一切都运行得很好，但是当我将上述算法应用到我的数据集时，准确性就会受到影响

我的代码如下：

import os

import pandas as pd

from sklearn.cross_validation import train_test_split

from keras.models import Sequential
from keras.layers.convolutional import Convolution2D, MaxPooling2D
from keras.layers.core import Dense, Activation, Dropout, Flatten
from keras.utils import np_utils

import AudioProcessing as ap
import ImageTools as it

batch_size = 128
nb_classes = 2
nb_epoch = 10  


for i in range(20):
    print "\n"
# Generate spectrograms if necessary
if(len(os.listdir("./AudioNormalPathalogicClassification/Image")) > 0):
    print "Audio files are already processed. Skipping..."
else:
    print "Generating spectrograms for the audio files..."
    ap.audio_2_image("./AudioNormalPathalogicClassification/Audio/","./AudioNormalPathalogicClassification/Image/",".wav",".png",(28,28))

# Read the result csv
df = pd.read_csv('./AudioNormalPathalogicClassification/Result/result.csv', header = None)

df.columns = ["RegionName","IsNormal"]

bool_mapping = {True : 1, False : 0}

nb_classes = 2

for col in df:
    if(col == "RegionName"):
        a = 3      
    else:
        df[col] = df[col].map(bool_mapping)

y = df.iloc[:,1:].values

y = np_utils.to_categorical(y, nb_classes)

# Load images into memory
print "Loading images into memory..."
X = it.load_images("./AudioNormalPathalogicClassification/Image/",".png")

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

X_train = X_train.reshape(X_train.shape[0], 784)
X_test = X_test.reshape(X_test.shape[0], 784)
X_train = X_train.astype("float32")
X_test = X_test.astype("float32")
X_train /= 255
X_test /= 255

print("X_train shape: " + str(X_train.shape))
print(str(X_train.shape[0]) + " train samples")
print(str(X_test.shape[0]) + " test samples")

model = Sequential()


model.add(Dense(output_dim = 100, input_dim = 784, activation= "relu"))
model.add(Dense(output_dim = 200, activation = "relu"))
model.add(Dense(output_dim = 200, activation = "relu"))
model.add(Dense(output_dim = nb_classes, activation = "softmax"))

model.compile(loss = "categorical_crossentropy", optimizer = "adam")

print model.summary()

model.fit(X_train, y_train, batch_size = batch_size, nb_epoch = nb_epoch, show_accuracy = True, verbose = 1, validation_data = (X_test, y_test))
score = model.evaluate(X_test, y_test, show_accuracy = True, verbose = 1)
print("Test score: ", score[0])
print("Test accuracy: ", score[1])

音频处理

import os
import scipy as sp
import scipy.io.wavfile as wav
import matplotlib.pylab as pylab
import Image

def save_spectrogram_scipy(source_filename, destination_filename, size):
    dt = 0.0005
    NFFT = 1024       
    Fs = int(1.0/dt)  
    fs, audio = wav.read(source_filename)
    if(len(audio.shape) >= 2):
        audio = sp.mean(audio, axis = 1)
    fig = pylab.figure()    
    ax = pylab.Axes(fig, [0,0,1,1])    
    ax.set_axis_off()
    fig.add_axes(ax) 
    pylab.specgram(audio, NFFT = NFFT, Fs = Fs, noverlap = 900, cmap="gray")
    pylab.savefig(destination_filename)
    img = Image.open(destination_filename).convert("L")
    img = img.resize(size)
    img.save(destination_filename)
    pylab.clf()
    del img

def audio_2_image(source_directory, destination_directory, audio_extension, image_extension, size):
    nb_files = len(os.listdir(source_directory));
    count = 0
    for file in os.listdir(source_directory):
        if file.endswith(audio_extension):        
            destinationName = file[:-4]
            save_spectrogram_scipy(source_directory + file, destination_directory + destinationName + image_extension, size)
            count += 1
            print ("Generating spectrogram for files " + str(count) + " / " + str(nb_files) + ".")

ImageTools.py

import os
import numpy as np
import matplotlib.image as mpimg
def load_images(source_directory, image_extension):
    image_matrix = []
    nb_files = len(os.listdir(source_directory));
    count = 0
    for file in os.listdir(source_directory):
        if file.endswith(image_extension):
            with open(source_directory + file,"r+b") as f:
                img = mpimg.imread(f)
                img = img.flatten()                
                image_matrix.append(img)
                del img
                count += 1
                #print ("File " + str(count) + " / " + str(nb_files) + " loaded.")
    return np.asarray(image_matrix)

因此，我运行上述代码并收到：

Audio files are already processed. Skipping...
Loading images into memory...
X_train shape: (2394L, 784L)
2394 train samples
1027 test samples
--------------------------------------------------------------------------------
Initial input shape: (None, 784)
--------------------------------------------------------------------------------
Layer (name)                  Output Shape                  Param #
--------------------------------------------------------------------------------
Dense (dense)                 (None, 100)                   78500
Dense (dense)                 (None, 200)                   20200
Dense (dense)                 (None, 200)                   40200
Dense (dense)                 (None, 2)                     402
--------------------------------------------------------------------------------
Total params: 139302
--------------------------------------------------------------------------------
None
Train on 2394 samples, validate on 1027 samples
Epoch 1/10
2394/2394 [==============================] - 0s - loss: 0.6898 - acc: 0.5455 - val_loss: 0.6835 - val_acc: 0.5716
Epoch 2/10
2394/2394 [==============================] - 0s - loss: 0.6879 - acc: 0.5522 - val_loss: 0.6901 - val_acc: 0.5716
Epoch 3/10
2394/2394 [==============================] - 0s - loss: 0.6880 - acc: 0.5522 - val_loss: 0.6842 - val_acc: 0.5716
Epoch 4/10
2394/2394 [==============================] - 0s - loss: 0.6883 - acc: 0.5522 - val_loss: 0.6829 - val_acc: 0.5716
Epoch 5/10
2394/2394 [==============================] - 0s - loss: 0.6885 - acc: 0.5522 - val_loss: 0.6836 - val_acc: 0.5716
Epoch 6/10
2394/2394 [==============================] - 0s - loss: 0.6887 - acc: 0.5522 - val_loss: 0.6832 - val_acc: 0.5716
Epoch 7/10
2394/2394 [==============================] - 0s - loss: 0.6882 - acc: 0.5522 - val_loss: 0.6859 - val_acc: 0.5716
Epoch 8/10
2394/2394 [==============================] - 0s - loss: 0.6882 - acc: 0.5522 - val_loss: 0.6849 - val_acc: 0.5716
Epoch 9/10
2394/2394 [==============================] - 0s - loss: 0.6885 - acc: 0.5522 - val_loss: 0.6836 - val_acc: 0.5716
Epoch 10/10
2394/2394 [==============================] - 0s - loss: 0.6877 - acc: 0.5522 - val_loss: 0.6849 - val_acc: 0.5716
1027/1027 [==============================] - 0s
('Test score: ', 0.68490593621422047)
('Test accuracy: ', 0.57156767283349563)

我试着改变网络，添加更多的纪元，但不管怎样，我总是得到同样的结果。我不明白为什么我会得到同样的结果

任何帮助都将不胜感激。多谢各位

编辑：我发现一个错误，没有正确读取像素值。我修复了ImageTools.py，如下所示：

import os
import numpy as np
from scipy.misc import imread

def load_images(source_directory, image_extension):
    image_matrix = []
    nb_files = len(os.listdir(source_directory));
    count = 0
    for file in os.listdir(source_directory):
        if file.endswith(image_extension):
            with open(source_directory + file,"r+b") as f:
                img = imread(f)                
                img = img.flatten()                        
                image_matrix.append(img)
                del img
                count += 1
                #print ("File " + str(count) + " / " + str(nb_files) + " loaded.")
    return np.asarray(image_matrix)

现在我实际得到的灰度像素值是从0到255，所以现在我把它除以255是有意义的。但是，我仍然得到相同的结果。

最可能的原因是优化器不适合您的数据集。以下是文档中的列表

我建议您首先使用默认参数值尝试SGD。如果仍然不起作用，将学习率除以10。如有必要，请重复几次。如果你的学习率达到1e-6，但仍然不起作用，那么你还有另一个问题

总之，替换此行：

model.compile(loss = "categorical_crossentropy", optimizer = "adam")

为此：

from keras.optimizers import SGD
opt = SGD(lr=0.01)
model.compile(loss = "categorical_crossentropy", optimizer = opt)

如果不起作用，可以改变学习速度几次

如果是问题的话，你应该看到损失在几个时代后就降低了。

经过一些检查，我发现问题在于数据本身。它非常脏，因为在同一个输入中有两个不同的输出，因此造成混乱。清除数据后，现在我的准确度上升到%69。仍然不够好，但至少我现在可以从这里开始工作了，因为数据已经清楚了

我使用以下代码进行测试：

import os
import sys

import pandas as pd
import numpy as np

from keras.models import Sequential
from keras.layers.convolutional import Convolution2D, MaxPooling2D
from keras.layers.core import Dense, Activation, Dropout, Flatten
from keras.utils import np_utils

sys.path.append("./")
import AudioProcessing as ap
import ImageTools as it


# input image dimensions
img_rows, img_cols = 28, 28
dim = 1
# number of convolutional filters to use
nb_filters = 32
# size of pooling area for max pooling
nb_pool = 2
# convolution kernel size
nb_conv = 3

batch_size = 128
nb_classes = 2
nb_epoch = 200

for i in range(20):
    print "\n"

## Generate spectrograms if necessary
if(len(os.listdir("./AudioNormalPathalogicClassification/Image")) > 0):
    print "Audio files are already processed. Skipping..."
else:
    # Read the result csv
    df = pd.read_csv('./AudioNormalPathalogicClassification/Result/AudioNormalPathalogicClassification_result.csv', header = None, encoding = "utf-8")

    df.columns = ["RegionName","Filepath","IsNormal"]

    bool_mapping = {True : 1, False : 0}

    for col in df:
        if(col == "RegionName" or col == "Filepath"):
            a = 3      
        else:
            df[col] = df[col].map(bool_mapping)

    region_names = df.iloc[:,0].values
    filepaths = df.iloc[:,1].values
    y = df.iloc[:,2].values
    #Generate spectrograms and make a new CSV file
    print "Generating spectrograms for the audio files..."
    result = ap.audio_2_image(filepaths, region_names, y, "./AudioNormalPathalogicClassification/Image/", ".png",(img_rows,img_cols))
    df = pd.DataFrame(data = result)
    df.to_csv("NormalVsPathalogic.csv",header= False, index = False, encoding = "utf-8")

# Load images into memory
print "Loading images into memory..."
df = pd.read_csv('NormalVsPathalogic.csv', header = None, encoding = "utf-8")
y = df.iloc[:,0].values
y = np_utils.to_categorical(y, nb_classes)
y = np.asarray(y)

X = df.iloc[:,1:].values
X = np.asarray(X)
X = X.reshape(X.shape[0], dim, img_rows, img_cols)
X = X.astype("float32")
X /= 255

print X.shape

model = Sequential()

model.add(Convolution2D(64, nb_conv, nb_conv,
                        border_mode='valid',
                        input_shape=(1, img_rows, img_cols)))

model.add(Activation('relu'))

model.add(Convolution2D(32, nb_conv, nb_conv))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(nb_pool, nb_pool)))

model.add(Dropout(0.25))

model.add(Flatten())

model.add(Dense(128))
model.add(Activation('relu'))

model.add(Dropout(0.5))

model.add(Dense(nb_classes))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adadelta')

print model.summary()

model.fit(X, y, batch_size = batch_size, nb_epoch = nb_epoch, show_accuracy = True, verbose = 1)

看看这个

sgd = optimizers.SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True)

model.compile( loss = "categorical_crossentropy", 
               optimizer = sgd, 
               metrics=['accuracy']
             )

查看

我使用MNIST的结果更好如果精度没有改变，这意味着优化器已经找到了损失的局部最小值。这可能是不希望达到的最低要求。一个常见的局部最小值是总是预测具有最多数据点的类。您应该对类使用权重来避免这个最小值

from sklearn.utils import compute_class_weight
classWeight = compute_class_weight('balanced', outputLabels, outputs) 
classWeight = dict(enumerate(classWeight))
model.fit(X_train, y_train, batch_size = batch_size, nb_epoch = nb_epochs, show_accuracy = True, verbose = 2, validation_data = (X_test, y_test), class_weight=classWeight)

我面临着类似的问题。在Keras中使用nputils对目标变量进行热编码，解决了准确性和验证损失被卡住的问题。使用权重来平衡目标类进一步提高了性能

解决方案：

from keras.utils.np.utils import to_categorical
y_train = to_categorical(y_train)
y_val = to_categorical(y_val)

我和你有同样的问题我的解决方案是循环而不是纪元

范围（10）内的i的

：
历史记录=型号。安装发电机（发电机=培训发电机，
验证数据=验证生成器，
使用_multiprocessing=True，
工人=6，
epochs=1）

另一个我在这里没有提到的解决方案，但对我造成类似问题的是最后一个神经元的激活功能，特别是如果它是

relu

而不是像

sigmoid

这样的非线性

换句话说，它可能会帮助您在最后一层中使用非线性激活函数
最后一层：

model.add(keras.layers.Dense(1, activation='relu'))
输出：

7996/7996 [==============================] - 1s 76us/sample - loss: 6.3474 - accuracy: 0.5860 Epoch 2/30 7996/7996 [==============================] - 0s 58us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 3/30 7996/7996 [==============================] - 0s 58us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 4/30 7996/7996 [==============================] - 0s 57us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 5/30 7996/7996 [==============================] - 0s 58us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 6/30 7996/7996 [==============================] - 0s 60us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 7/30 7996/7996 [==============================] - 0s 57us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 8/30 7996/7996 [==============================] - 0s 57us/sample - loss: 6.3473 - accuracy: 0.5860

7996/7996 [==============================] - 1s 74us/sample - loss: 0.7663 - accuracy: 0.5899 Epoch 2/30 7996/7996 [==============================] - 0s 59us/sample - loss: 0.6243 - accuracy: 0.5860 Epoch 3/30 7996/7996 [==============================] - 0s 56us/sample - loss: 0.5399 - accuracy: 0.7580 Epoch 4/30 7996/7996 [==============================] - 0s 56us/sample - loss: 0.4694 - accuracy: 0.7905 Epoch 5/30 7996/7996 [==============================] - 0s 57us/sample - loss: 0.4363 - accuracy: 0.8040 Epoch 6/30 7996/7996 [==============================] - 0s 60us/sample - loss: 0.4139 - accuracy: 0.8099 Epoch 7/30 7996/7996 [==============================] - 0s 58us/sample - loss: 0.3967 - accuracy: 0.8228 Epoch 8/30 7996/7996 [==============================] - 0s 61us/sample - loss: 0.3826 - accuracy: 0.8260
现在我使用了一个非线性激活函数：

model.add(keras.layers.Dense(1, activation='sigmoid'))
输出：

7996/7996 [==============================] - 1s 76us/sample - loss: 6.3474 - accuracy: 0.5860 Epoch 2/30 7996/7996 [==============================] - 0s 58us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 3/30 7996/7996 [==============================] - 0s 58us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 4/30 7996/7996 [==============================] - 0s 57us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 5/30 7996/7996 [==============================] - 0s 58us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 6/30 7996/7996 [==============================] - 0s 60us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 7/30 7996/7996 [==============================] - 0s 57us/sample - loss: 6.3473 - accuracy: 0.5860 Epoch 8/30 7996/7996 [==============================] - 0s 57us/sample - loss: 6.3473 - accuracy: 0.5860

7996/7996 [==============================] - 1s 74us/sample - loss: 0.7663 - accuracy: 0.5899 Epoch 2/30 7996/7996 [==============================] - 0s 59us/sample - loss: 0.6243 - accuracy: 0.5860 Epoch 3/30 7996/7996 [==============================] - 0s 56us/sample - loss: 0.5399 - accuracy: 0.7580 Epoch 4/30 7996/7996 [==============================] - 0s 56us/sample - loss: 0.4694 - accuracy: 0.7905 Epoch 5/30 7996/7996 [==============================] - 0s 57us/sample - loss: 0.4363 - accuracy: 0.8040 Epoch 6/30 7996/7996 [==============================] - 0s 60us/sample - loss: 0.4139 - accuracy: 0.8099 Epoch 7/30 7996/7996 [==============================] - 0s 58us/sample - loss: 0.3967 - accuracy: 0.8228 Epoch 8/30 7996/7996 [==============================] - 0s 61us/sample - loss: 0.3826 - accuracy: 0.8260

这并不是对原始答案的直接解决方案，但当搜索这个问题时，在谷歌上的答案是“1”，这可能会对某些人有利。
我也有类似的问题。我有一个用1和2标记的二进制类。在测试了不同类型的优化器和激活函数之后，我发现问题的根源在于我对类的标记。换句话说，我将标签改为0和1，而不是1和2，然后这个问题就解决了
使用这个“乙状结肠”激活，我获得了13%的准确度增量

model = Sequential() model.add(Dense(3072, input_shape=(3072,), activation="sigmoid")) model.add(Dense(512, activation="sigmoid")) model.add(Dense(1, activation="sigmoid"))
或者您也可以测试以下内容，其中“relu”位于第一层和隐藏层中

model = Sequential() model.add(Dense(3072, input_shape=(3072,), activation="relu")) model.add(Dense(512, activation="sigmoid")) model.add(Dense(1, activation="sigmoid"))

由于错误，我在末尾添加了softmax而不是sigmoid。试着做后者。当我这样做的时候，它像预期的那样工作。对于一个输出层，softmax总是给出1的值，这就是发生的情况。
对于多类，我遇到了相同的问题，尝试更改优化器默认值为Adam将其更改为sgd

model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])
您还可以尝试不同的激活功能，例如（relu、sigmoid、softmax、softplus等）
一些imp链接

正如其他人指出的，优化器可能不适合陷入局部极小值的数据/模型。神经网络应至少能够过度拟合数据（训练值接近1）。
我曾经有过类似的问题。我通过尝试不同的优化器（在我的例子中是从SGD到RMSprop）来解决问题。
如上所述，问题主要来自所选择的优化器类型。然而，它也可以通过使用相同的激活功能（例如softmax）覆盖2个致密层的事实来驱动。在这种情况下，NN会找到一个局部最小值，并且无法从该点进一步下降，从而围绕相同的acc（val_acc）值滚动。
希望能有所帮助。
我知道这是一个老问题，但从今天（2021年6月14日）起，@theTechGuy的评论在TF2.3上运行良好。代码是：

from tensorflow.keras.optimizers import SGD sgd = SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True) model.compile( loss = "categorical_crossentropy", optimizer = sgd, metrics=['accuracy'] )

当我尝试10^-5时，准确度变为0.53，10^-6时准确度变为0.43。其余的都是0.57。我还尝试了链接中的其他优化器，但是结果是一样的。你可以尝试的另一件事是改变你规范化数据的方式。尝试使用scikit学习StandardScaler。如果它仍然不起作用，你将需要一个更复杂的模型。是的，但它不是RNN，只是几个完全连接的层。递归神经网络