Computer vision 培训后更改解决方案（已获得预先培训的模型）_Computer Vision_Convolutional Neural Network_Yolo

Computer vision 培训后更改解决方案（已获得预先培训的模型）

computer-vision

Computer vision 培训后更改解决方案（已获得预先培训的模型）,computer-vision,convolutional-neural-network,yolo,Computer Vision,Convolutional Neural Network,Yolo,阅读时，提到[1]网络的第一部分，即那些卷积层，首先在ImageNet数据集上以224x224的输入分辨率进行训练。之后，将模型转换为执行检测，其中输入分辨率从224x224增加到448x448。我想知道如何进行这种转换：如果网络的输入最初是224x224，那么参数的数量应该不同于448x448，这意味着在ImageNet数据集上训练的卷积层不能重复用于检测我错过了什么 [1] ：在“2.2培训”部分末尾如果网络的输入首先为224x224，则参数数量应不同于448x448 这是你的误解卷积

阅读时，提到[1]网络的第一部分，即那些卷积层，首先在ImageNet数据集上以224x224的输入分辨率进行训练。之后，将模型转换为执行检测，其中输入分辨率从224x224增加到448x448。我想知道如何进行这种转换：如果网络的输入最初是224x224，那么参数的数量应该不同于448x448，这意味着在ImageNet数据集上训练的卷积层不能重复用于检测

我错过了什么

[1] ：在“2.2培训”部分末尾

如果网络的输入首先为224x224，则参数数量应不同于448x448

这是你的误解

卷积运算对输入的大小没有限制，因此对输出的大小也没有限制。当你训练一个在末尾有完全连接层的CNN进行分类时，你将输入限制为固定大小，因为FC层可以接受的输入数量是固定的

但是，如果将分类头从网络中移除，并且仅使用CNN的训练权重作为特征提取器，您会注意到，给定任何维度的输入（>=网络已训练的维度），输出将是一组特征地图，其空间范围随着输入的空间范围的增加而增加

因此，在YOLO中，网络最初被训练为执行分辨率为224x224的分类M。通过这种方式，卷积运算的权重+最后学习的FC层的权重来提取和分类有意义的特征

在第一次训练之后，FC层被丢弃，只保留特征提取部分。通过这种方式，你可以使用一个好的特征提取器，它已经学会了以卷积的方式提取有意义的特征（ei，不是生成特征向量，而是生成一个特征映射作为输出，可以像YOLO那样进行后处理）

另外，我看到了你的另一个问题（），答案和原因是一样的。