Encoding 为什么我们应该使用一袋视觉单词(或vlad)而不是存储描述符?

Encoding 为什么我们应该使用一袋视觉单词(或vlad)而不是存储描述符?,encoding,computer-vision,information-retrieval,vlad-vector,Encoding,Computer Vision,Information Retrieval,Vlad Vector,我读过很多关于图像编码技术的书,例如视觉文字包、VLAD或Fisher向量 然而,我有一个非常基本的问题:我们知道我们可以执行描述符匹配(蛮力或利用ANN技术)。我的问题是:我们为什么不直接使用它们呢 据我所知,视觉文字袋是由每幅图像的几十万个维度组成的,以准确表示。如果我们考虑一个具有1000个SIFT描述符的图像(这已经是相当数量的),我们有128个浮点数,它通常小于BoVW的维数,所以它不是为了记忆的原因(至少如果我们不考虑大规模问题,那么弗拉德/FV代码是优选的)。 那么我们为什么要使用

我读过很多关于图像编码技术的书,例如视觉文字包、VLAD或Fisher向量

然而,我有一个非常基本的问题:我们知道我们可以执行描述符匹配(蛮力或利用ANN技术)。我的问题是:我们为什么不直接使用它们呢

据我所知,视觉文字袋是由每幅图像的几十万个维度组成的,以准确表示。如果我们考虑一个具有1000个SIFT描述符的图像(这已经是相当数量的),我们有128个浮点数,它通常小于BoVW的维数,所以它不是为了记忆的原因(至少如果我们不考虑大规模问题,那么弗拉德/FV代码是优选的)。 那么我们为什么要使用这种编码技术呢?是因为性能原因吗?

我很难理解你的问题

关于描述符匹配,蛮力,神经网络匹配技术被用于检索系统。最近的匹配技术包括KDtree、哈希等

BoVW是一种传统的表示方案。BOVW与倒排索引的结合曾一度是信息检索系统中最先进的技术。但是BOVW表示的维度(每幅图像的内存使用量)(高达数百万)限制了实际中可以索引的图像的实际数量

FV和VLAD都是紧凑的视觉表现,具有很高的辨别能力,这是BoVW所缺乏的。众所周知,VLAD非常紧凑(每幅图像32Kb),在检索和分类任务中非常有辨别力和效率

是的,这样的编码技术是出于性能原因而使用的。 您可以查看这篇文章以获得更深入的理解: