Image processing 基于内容的图像检索（CBIR）：特征包还是描述符匹配？_Image Processing_Computer Vision_Cluster Analysis_Sift_Nearest Neighbor

Image processing 基于内容的图像检索（CBIR）：特征包还是描述符匹配？

image-processing computer-vision

Image processing 基于内容的图像检索（CBIR）：特征包还是描述符匹配？,image-processing,computer-vision,cluster-analysis,sift,nearest-neighbor,Image Processing,Computer Vision,Cluster Analysis,Sift,Nearest Neighbor,我读过很多关于最近邻问题的论文，看起来像随机kd树或LSH这样的索引技术已经成功地用于基于内容的图像检索（CBIR），它可以在高维空间中运行。一个非常常见的实验是给出一个SIFT查询向量，在数据集中找到最相似的SIFT描述符。如果我们对所有检测到的SIFT描述符重复这个过程，我们可以找到最相似的图像然而，另一种流行的方法是使用检测到的所有SIFT描述符并将其转换为一个巨大的稀疏向量，该向量可以使用相同的文本技术（例如，反向索引）进行索引我的问题是：这两种不同的方法（通过最近邻技术匹配SIFT

我读过很多关于最近邻问题的论文，看起来像随机kd树或LSH这样的索引技术已经成功地用于基于内容的图像检索（CBIR），它可以在高维空间中运行。一个非常常见的实验是给出一个SIFT查询向量，在数据集中找到最相似的SIFT描述符。如果我们对所有检测到的SIFT描述符重复这个过程，我们可以找到最相似的图像

然而，另一种流行的方法是使用检测到的所有SIFT描述符并将其转换为一个巨大的稀疏向量，该向量可以使用相同的文本技术（例如，反向索引）进行索引

我的问题是：这两种不同的方法（通过最近邻技术匹配SIFT描述符与SIFT描述符上的特征包+反转索引）非常不同，我不知道哪一种更好

如果第二种方法更好，最近邻法在计算机视觉/图像处理中的应用是什么？

哦，天哪，你问的问题连论文都回答不了。为了进行比较，我们应该采用这两种方法的最新技术，并对它们进行比较，测量速度、准确度和召回率。具有最佳特性的一个比另一个好

就我个人而言，我并没有听说过太多的视觉文字袋，我只在与文本相关的项目中使用了文字袋模型，而没有在与图像相关的项目中使用。此外，我确信我见过很多人使用第一种方法（包括我和我们的同事）

这是我得到的最好的结果，所以如果我是你，我会搜索一篇比较这两种方法的论文，如果我找不到一篇，我会找到这两种方法的最佳代表（你发布的链接上有一篇2009年的论文，我想是旧的），并检查他们的实验

但是要小心！为了比较最佳代表的方法，你需要确保每篇论文的实验都非常相关，使用的机器具有相同的“能力”，使用的数据具有相同的性质和大小，等等。

你是说，通常当我们谈论CBIRs时，我们将图像表示为一组SIFT描述符，而不将其转换为单个向量（例如，通过BoVW）？我不确定你的意思@justHelloWorld，尽管我的答案中写着；希望有帮助！：）顺便说一句，这是一个好问题，值得我+1！