Computer vision 计算机视觉中使用文字袋的原因

Computer vision 计算机视觉中使用文字袋的原因,computer-vision,object-detection,Computer Vision,Object Detection,在计算机视觉中,人们为什么会选择一袋文字 例如:如果使用HOG特征作为描述符,并对该特征应用弓形方法,则结果将是直方图的直方图 我可以看到这种方法的降维优势,以及生成的箱子的固定大小,但这真的是唯一的原因吗?因为这种减少也会导致信息的丢失 我还可以考虑将图像调整为固定的、通常更小的大小,并计算猪的大小。生成的向量也将具有固定的大小,因此它也可以与分类器一起使用。这也会导致信息丢失,特别是当固定图像大小非常小时,但不会像k-means那么大。我认为这个想法是这样的:低级特征检测器会找到小的“相关”

在计算机视觉中,人们为什么会选择一袋文字

例如:如果使用HOG特征作为描述符,并对该特征应用弓形方法,则结果将是直方图的直方图

我可以看到这种方法的降维优势,以及生成的箱子的固定大小,但这真的是唯一的原因吗?因为这种减少也会导致信息的丢失


我还可以考虑将图像调整为固定的、通常更小的大小,并计算猪的大小。生成的向量也将具有固定的大小,因此它也可以与分类器一起使用。这也会导致信息丢失,特别是当固定图像大小非常小时,但不会像k-means那么大。

我认为这个想法是这样的:低级特征检测器会找到小的“相关”补丁,描述符+k-means算法会将它们打包到“头灯”、“轮胎”等袋子中,“车顶”。然后,如果你发现一对前灯、两个轮胎和一个车顶,你可能正在看一辆车


这样做的好处是,轮胎和前照灯的位置无关紧要,因此无论您是看侧视图、前视图还是不同车型的汽车都无关紧要。如果您将功能描述符直接应用于整个图像,则侧视图和前视图将得到完全不同的描述。

这就完美地说明了这一点有道理,谢谢!