Encoding 为什么我们应该使用一袋视觉单词（或vlad）而不是存储描述符？_Encoding_Computer Vision_Information Retrieval_Vlad Vector

Encoding 为什么我们应该使用一袋视觉单词（或vlad）而不是存储描述符？

encoding computer-vision

Encoding 为什么我们应该使用一袋视觉单词（或vlad）而不是存储描述符？,encoding,computer-vision,information-retrieval,vlad-vector,Encoding,Computer Vision,Information Retrieval,Vlad Vector,我读过很多关于图像编码技术的书，例如视觉文字包、VLAD或Fisher向量然而，我有一个非常基本的问题：我们知道我们可以执行描述符匹配（蛮力或利用ANN技术）。我的问题是：我们为什么不直接使用它们呢据我所知，视觉文字袋是由每幅图像的几十万个维度组成的，以准确表示。如果我们考虑一个具有1000个SIFT描述符的图像（这已经是相当数量的），我们有128个浮点数，它通常小于BoVW的维数，所以它不是为了记忆的原因（至少如果我们不考虑大规模问题，那么弗拉德/FV代码是优选的）。那么我们为什么要使用

我读过很多关于图像编码技术的书，例如视觉文字包、VLAD或Fisher向量

然而，我有一个非常基本的问题：我们知道我们可以执行描述符匹配（蛮力或利用ANN技术）。我的问题是：我们为什么不直接使用它们呢

据我所知，视觉文字袋是由每幅图像的几十万个维度组成的，以准确表示。如果我们考虑一个具有1000个SIFT描述符的图像（这已经是相当数量的），我们有128个浮点数，它通常小于BoVW的维数，所以它不是为了记忆的原因（至少如果我们不考虑大规模问题，那么弗拉德/FV代码是优选的）。那么我们为什么要使用这种编码技术呢？是因为性能原因吗？

我很难理解你的问题

关于描述符匹配，蛮力，神经网络匹配技术被用于检索系统。最近的匹配技术包括KDtree、哈希等

BoVW是一种传统的表示方案。BOVW与倒排索引的结合曾一度是信息检索系统中最先进的技术。但是BOVW表示的维度（每幅图像的内存使用量）（高达数百万）限制了实际中可以索引的图像的实际数量
FV和VLAD都是紧凑的视觉表现，具有很高的辨别能力，这是BoVW所缺乏的。众所周知，VLAD非常紧凑（每幅图像32Kb），在检索和分类任务中非常有辨别力和效率
是的，这样的编码技术是出于性能原因而使用的。您可以查看这篇文章以获得更深入的理解：