Python 为什么我的CNN总是返回相同的结果?

Python 为什么我的CNN总是返回相同的结果?,python,machine-learning,computer-vision,deep-learning,caffe,Python,Machine Learning,Computer Vision,Deep Learning,Caffe,我正试图建立一个CNN,将物体分为三大类。这三个物体包括一个兰博基尼,气缸盖和一个平面。我的数据集由6580个图像组成,每个类大约有2200个图像。你可以在谷歌硬盘上看到我的数据集。 我的CNN的架构是AlexNet,但我已经将完全连接的第8层的输出从1000修改为3。 我使用这些设置进行培训 test_iter:1000 test_interval:1000 base_lr:0.001 lr_policy:"step" gamma:0.1 stepsize:2500 max_iter:4000

我正试图建立一个CNN,将物体分为三大类。这三个物体包括一个兰博基尼,气缸盖和一个平面。我的数据集由6580个图像组成,每个类大约有2200个图像。你可以在谷歌硬盘上看到我的数据集。 我的CNN的架构是AlexNet,但我已经将完全连接的第8层的输出从1000修改为3。 我使用这些设置进行培训

test_iter:1000
test_interval:1000
base_lr:0.001
lr_policy:"step"
gamma:0.1
stepsize:2500
max_iter:40000
momentum:0.9
weight_decay:0.0005
但是,问题是,当我在训练后部署模型时,结果总是如下
{'prob':array([[0.33333334,0.33333334,0.33333334]],dtype=float32)}

下面的代码是我加载模型并输出概率向量的脚本

import numpy as np
import matplotlib.pyplot as plt
import sys
import caffe
import cv2

MODEL_FILE ='deploy_ex0.prototxt'
PRETRAINED='snapshot_ex0_1_model_iter_40000.caffemodel'

caffe.set_mode_cpu()
net = caffe.Net(MODEL_FILE, PRETRAINED, caffe.TEST)

#preprocessing 

transformer = caffe.io.Transformer({'data': net.blobs['data'].data.shape})

#mean substraction 

mean_file = np.array([104,117,123]) 
transformer.set_mean('data', mean_file)

transformer.set_transpose('data', (2,0,1))
transformer.set_channel_swap('data', (2,1,0))
transformer.set_raw_scale('data', 255.0)

#batch size 
net.blobs['data'].reshape(1,3,227,227)

#load image in data layer 

im=cv2.imread('test.jpg', cv2.IMREAD_COLOR)
img =cv2.resize(im, (227,227))

net.blobs['data'].data[...] = transformer.preprocess('data', img)

#compute 

out=net.forward()

print out
我想知道为什么我会有这样的结果?你能帮我调试一下CNN吗

而且,经过训练我得到了这些结果

I0421 06:56:12.285953  2224 solver.cpp:317] Iteration 40000, loss = 5.06557e-05
I0421 06:56:12.286027  2224 solver.cpp:337] Iteration 40000, Testing net (#0)
I0421 06:58:32.159469  2224 solver.cpp:404]     Test net output #0: accuracy = 0.99898
I0421 06:58:32.159626  2224 solver.cpp:404]     Test net output #1: loss = 0.00183688 (* 1 = 0.00183688 loss)
I0421 06:58:32.159643  2224 solver.cpp:322] Optimization Done.
I0421 06:58:32.159654  2224 caffe.cpp:222] Optimization Done.
多谢各位

5月11日回答后编辑:

我使用了一个简单的模型1 conv、1 reul、1 pool和2个完全连接的层。。以下代码是体系结构规范:

name:"CNN"
layer {
  name: "convnet"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TRAIN
  }
  transform_param {
    mirror:true
    crop_size:227
    mean_value:87.6231
    mean_value:87.6757

    mean_value:87.1677
    #mean_file:"/home/jaba/caffe/data/diota_model/mean.binaryproto"
  }
  data_param {
    source: "/home/jaba/caffe/data/diota_model/train_lmdb"
    batch_size: 32
    backend: LMDB
  }
}

layer {
  name: "convnet"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TEST
  }
  transform_param {
    mirror:true
    crop_size:227
    mean_value:87.6231
    mean_value:87.6757

    mean_value:87.1677
    #mean_file:"/home/jaba/caffe/data/diota_model/mean.binaryproto"
  }
  data_param {
    source: "/home/jaba/caffe/data/diota_model/val_lmdb"
    batch_size: 20
    backend: LMDB
  }
}

layer {
  name: "conv1"
  type: "Convolution"
  bottom: "data"
  top: "conv1"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  convolution_param {
    num_output: 20
    kernel_size: 5
    stride: 1
    weight_filler {
      type: "xavier"
    }
    bias_filler {
      type: "constant"
    }
  }
}

layer {
  name: "relu1"
  type: "ReLU"
  bottom: "conv1"
  top: "conv1"
}

layer {
  name: "pool1"
  type: "Pooling"
  bottom: "conv1"
  top: "pool1"
  pooling_param {
    pool: MAX
    kernel_size: 3
    stride: 2
  }
}

layer {
  name: "ip1"
  type: "InnerProduct"
  bottom: "pool1"
  top: "ip1"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  inner_product_param {
    num_output: 300
    weight_filler {
      type: "xavier"
    }
    bias_filler {
      type: "constant"
    }
  }
}

layer 
{
   name:"ip2"
   type:"InnerProduct"
   bottom:"ip1"
   top:"ip2"
   param
   {
    lr_mult:1
   }
   param
   {
    lr_mult:2
   }
   inner_product_param 
   {
    num_output: 3
        weight_filler {
          type: "xavier"
        }
        bias_filler {
          type: "constant"
        }
   }

}
layer {
  name: "accuracy"
  type: "Accuracy"
  bottom: "ip1"
  bottom: "label"
  top: "accuracy"
  include {
    phase: TEST
  }
}

layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "ip1"
  bottom: "label"
  top: "loss"
}
我对CNN进行了22个时代的训练,准确率达到了86%。对于我使用的解算器参数:

net: "/home/jaba/caffe/data/diota_model/simple_model/train_val.prototxt"
test_iter: 50
test_interval: 100
base_lr: 0.00001
momentum: 0.9
weight_decay: 0.0005
lr_policy: "inv"
gamma: 0.0001
power: 0.75
display: 100
max_iter: 3500
snapshot: 100
snapshot_prefix: "/home/jaba/caffe/data/diota_model/simple_model/snap_shot_model"
solver_mode: GPU
现在,当我部署模型时,它不会返回相同的概率向量。但是,有一个问题,当我加载模型并在validation_lmdb文件夹上测试它时,我没有得到相同的精度值,我得到了几乎56%

我使用下面的脚本计算精度:

import os
import glob
#import cv2
import caffe
import lmdb
import numpy as np
from caffe.proto import caffe_pb2

MODEL_FILE ='deploy.prototxt'
PRETRAINED='snap_shot_model_iter_3500.caffemodel'

caffe.set_mode_cpu()
#load_model

net = caffe.Net(MODEL_FILE, PRETRAINED, caffe.TEST)

#load input and configure preprocessing



#mean_file = np.array([104,117,123])

transformer = caffe.io.Transformer({'data': net.blobs['data'].data.shape})
#transformer.set_mean('data', mean_file)
transformer.set_transpose('data', (2,0,1))
transformer.set_channel_swap('data', (2,1,0))
transformer.set_raw_scale('data', 255.0)


#fixing the batch size

net.blobs['data'].reshape(1,3,227,227)

lmdb_env=lmdb.open('/home/jaba/caffe/data/diota_model/val1_lmdb')

lmdb_txn=lmdb_env.begin()

lmdb_cursor=lmdb_txn.cursor()

datum=caffe_pb2.Datum()


correct_predictions=0

for key,value in lmdb_cursor:

    datum.ParseFromString(value)

    label=datum.label
    data=caffe.io.datum_to_array(datum)

    image=np.transpose(data,(1,2,0))


    net.blobs['data'].data[...]=transformer.preprocess('data',image)

    out=net.forward()
    out_put=out['prob'].argmax()
    if label==out_put:
    correct_predictions=correct_predictions+1



print 'accuracy :'
print correct_predictions/1002.0
我改变了数据集的大小,1002用于测试,4998用于学习。 你能给我一些解决这个问题的建议吗


谢谢

我想我看到了两个截然不同的问题,不同形式的过度拟合。6580张图像中有85%用于训练,5593张在训练中,987张在测试中

一个

40000次迭代*(256个图像/迭代)*(1个历元/5593个图像)~=1831个历元。 在ILSVRC数据集(128万张图像)上,AlexNet只训练40-50个时代(取决于扩展)。 您的模型最终以0的损失完成,并且在整个测试集中只有1张照片出错

两个

AlexNet的宽度(每层过滤器)针对ILSVRC数据集的1000个类和无数特性进行了调整。您还没有缩小数据的比例。第5层扩大到4096个滤镜:几乎每个图像一个滤镜。ILSVRC训练Alexnet识别特征,如猫脸、轮式车辆的一侧等——你的模型将训练从前方30度角、水平面以上8度角识别深蓝色兰博基尼,背景为草,驾驶员侧背景为白杨树

换句话说,经过训练的AlexNet与训练数据集的匹配就像一个塑料外壳。除了初始数据集之外,它不会适合任何东西

我有点惊讶,它在其他汽车、其他气缸盖和飞机部件上没有更好的表现。然而,我已经看到了足够多的过度拟合的模型,它们具有有效的随机输出


首先,缩短训练时间。其次,尝试减少每层的num\u输出大小


5月11日OP评论后编辑

是的,您必须减少每层中内核/过滤器/输出的数量。第5层尤其具有4K过滤器,这意味着网络可以为数据集中的每张照片分配几乎1个过滤器。这不利于有效的学习:你没有几个过滤器来学习垫圈的特征,而是有1000多个过滤器,每个过滤器学习一个特定垫圈照片的一个非常具体的特征


AlexNet、GoogleNet、ResNet、VGG等都是针对各种物体上静态图像的一般分辨问题而构建和调整的。您当然可以使用一般概念,但它们不是用于更小、定义更好的问题的好拓扑。

我非常希望这是一个输入错误:1000的学习率是荒谬的。:-)模型的批量大小是多少?此外,请张贴一些输入数据的样本,或描述您的班级之间的差异;我们不会浏览4600张照片来查看类2的外观。您的测试图像类分布是什么?小损失是说它学到了一些东西。当使用opencv图像加载BGR加载图像时,您可以检查mean_file=np.array([104117123]),因此请尝试caffe.io.load_图像并查看结果,如果在使用opencv更改频道顺序时解决了问题,我已完成以下操作。我将数据集减少到6000张图像(5000张用于培训,1000张用于测试)。此外,我将完全连接的第6层和完全连接的第7层的输出数量更改为1000。我还更改了solver.prototxt您还没有完全描述这些更改,但这只是一个开始。您仍然需要解决内核内部层的带宽问题(上面的问题二)。您仍在尝试用大型拓扑解决一个小问题。很抱歉,没有描述洞的问题。事实上,我将数据集减少到6000(5000用于培训,1000用于测试)并且,我将FC6、FC7的输出数量更改为1000,批大小从50更改为50,解算器(测试时间:100;测试间隔:500;最大时间:4000)。我得到了92%的准确率,问题是当我尝试部署模型时,我得到了以下错误:无法从层“fc8”复制参数0权重;形状不匹配。源参数形状为2 1000(2000);目标参数形状为3 1000(3000)。若要从头开始学习该层的参数,而不是从保存的网络复制,请重命名该层(1)请将显著信息编辑到原始问题中;(2) 部署错误可能是另一个问题——您是否尝试过部署原始(非工作)模型?;(3) 所以现在你只训练了1个历元???(2)我试图部署原始模型,但它总是返回相同的概率向量(3),用于我训练的第二个模型