Computer vision 培训后更改解决方案(已获得预先培训的模型)

Computer vision 培训后更改解决方案(已获得预先培训的模型),computer-vision,convolutional-neural-network,yolo,Computer Vision,Convolutional Neural Network,Yolo,阅读时,提到[1]网络的第一部分,即那些卷积层,首先在ImageNet数据集上以224x224的输入分辨率进行训练。之后,将模型转换为执行检测,其中输入分辨率从224x224增加到448x448。我想知道如何进行这种转换:如果网络的输入最初是224x224,那么参数的数量应该不同于448x448,这意味着在ImageNet数据集上训练的卷积层不能重复用于检测 我错过了什么 [1] :在“2.2培训”部分末尾 如果网络的输入首先为224x224,则参数数量应不同于448x448 这是你的误解 卷积

阅读时,提到[1]网络的第一部分,即那些卷积层,首先在ImageNet数据集上以224x224的输入分辨率进行训练。之后,将模型转换为执行检测,其中输入分辨率从224x224增加到448x448。我想知道如何进行这种转换:如果网络的输入最初是224x224,那么参数的数量应该不同于448x448,这意味着在ImageNet数据集上训练的卷积层不能重复用于检测

我错过了什么

[1] :在“2.2培训”部分末尾

如果网络的输入首先为224x224,则参数数量应不同于448x448

这是你的误解

卷积运算对输入的大小没有限制,因此对输出的大小也没有限制。当你训练一个在末尾有完全连接层的CNN进行分类时,你将输入限制为固定大小,因为FC层可以接受的输入数量是固定的

但是,如果将分类头从网络中移除,并且仅使用CNN的训练权重作为特征提取器,您会注意到,给定任何维度的输入(>=网络已训练的维度),输出将是一组特征地图,其空间范围随着输入的空间范围的增加而增加

因此,在YOLO中,网络最初被训练为执行分辨率为224x224的分类M。通过这种方式,卷积运算的权重+最后学习的FC层的权重来提取和分类有意义的特征


在第一次训练之后,FC层被丢弃,只保留特征提取部分。通过这种方式,你可以使用一个好的特征提取器,它已经学会了以卷积的方式提取有意义的特征(ei,不是生成特征向量,而是生成一个特征映射作为输出,可以像YOLO那样进行后处理)

另外,我看到了你的另一个问题(),答案和原因是一样的。