Indexing 什么';倒排索引和普通旧索引的区别是什么?

Indexing 什么';倒排索引和普通旧索引的区别是什么?,indexing,terminology,Indexing,Terminology,在软件工程中,我们一直在创建索引(例如,在数据库中),但我也听到很多人谈论反向索引。这两者之间有什么根本的不同吗?它们听起来是一样的。在倒排索引中,我们有以下形式: word1->它出现的文档列表(排序顺序) word2->它出现的文档列表(排序顺序) 它对于搜索引擎查询处理非常有用,因为它允许我们查找单词出现在其中的文档 您可以使用有监督的机器学习来建立这个反向索引。一个常见的用法是 这两种类型表示方向性。一个带您向前浏览索引,另一个带您向后浏览索引。就这样。这里没有什么神秘可言。否则,这两种

在软件工程中,我们一直在创建索引(例如,在数据库中),但我也听到很多人谈论反向索引。这两者之间有什么根本的不同吗?它们听起来是一样的。

在倒排索引中,我们有以下形式:

word1->它出现的文档列表(排序顺序)

word2->它出现的文档列表(排序顺序)

它对于搜索引擎查询处理非常有用,因为它允许我们查找单词出现在其中的文档

您可以使用有监督的机器学习来建立这个反向索引。

一个常见的用法是

这两种类型表示方向性。一个带您向前浏览索引,另一个带您向后浏览索引。就这样。这里没有什么神秘可言。否则,这两种类型是相同的,这只是一个问题,即您拥有什么信息,以及您试图查找什么信息。

为了回答你的问题,我认为实际上没有办法知道为什么它的用途是今天的。定义哪一个是向前的,哪一个是反向的,唯一重要的原因是这样我们就可以谈论它们,每个人都知道我们谈论的方向。想想“左”和“右”这两个词:它们是相对的。哪一个无关紧要,只是每个人都需要同意哪一个是“左”哪一个是“右”才能让单词有意义。如果,作为一种文化,我们决定向左和向右翻转,那么你会遇到同样的问题,因为商定的含义发生了变化,所以要弄清楚“右转”和“左转”是什么。然而,命名是任意的,所以哪一个是哪一个(就其本身而言)并不重要——重要的是,我们都同意其含义

在你的评论中,你问“请不要只是定义术语”,你没有抓住要点,我认为你只是在对措辞感到困惑,而它们之间完全没有区别。


为了将来读者的利益,我现在将提供几个“正向”和“反向”索引示例:

示例1:Web搜索 如果你认为一个指数的倒数类似于,其中倒数是一个具有不同形式的特殊事物,那么你错了:这里不是这样

在搜索引擎中,您有一个文档列表(网站上的页面),在其中输入一些关键字并返回结果

一个(或仅仅是索引)是文档的列表,以及其中出现的单词。在web搜索示例中,Google在web上爬行,建立文档列表,计算每个页面中出现的单词

是单词的列表及其出现的文档。在web搜索示例中,您提供单词列表(您的搜索查询),Google生成文档(搜索结果链接)

它们都是指数——这只是一个你走向何方的问题。正向是从文档->到->文字,反向是从文字->到->文档。

示例2:DNS 另一个示例是DNS查找(采用主机名并返回IP地址)和反向查找(采用IP地址并提供主机名)。

例3:一本书 一本书后面的索引实际上是一个倒排索引,正如上面的例子所定义的——一个单词列表,以及在书中的何处可以找到它们。在一本书中,目录就像一个向前的索引:它是一个书中包含的文档(章节)列表,除了没有列出这些章节中的单词外,目录只是给出了这些文档(章节)中包含的内容的名称/一般描述。

例4:你的手机
手机中的向前索引是联系人列表,以及与这些联系人相关的电话号码(手机、家庭、工作)。倒排索引允许您手动输入电话号码,当您点击“拨号”时,您会看到对方的姓名,而不是号码,因为您的手机已经获取了电话号码并找到了与之相关的联系人。

索引有多种类型。例如,B-树、R-树、哈希。。。为了不同的目的,我们必须选择正确的索引

倒排索引是一种特殊的索引。全文搜索引擎中常用的倒排索引。使用反向索引,我们可以尽可能快地找到单词在文档(或文档集)中的位置。考虑到内存和cpu的限制,其他索引无法完成这项工作


您可以阅读lucene文档了解更多详细信息。这是一个开源搜索引擎

通常在谈到索引时,您指的是一些为加速应用程序而添加的计算或存储的过程结果(例如MySQL或其他RDBMS)。索引还可以与缓存等相关

反向索引创建的文件结构主要用于(全文)搜索

反向索引由两个主要文件组成:

  • 词汇表
  • 发生
词汇表中的常用词是从文本中提取的(当然是在过滤了代词等黑名单词之后)。事件文件保存单词和文档之间的连接(单词1出现在doc1和doc2中,而不是doc3中)。它以矩阵的形式表示

上图显示了创建上述两个文件的过程

如果你对这个问题更感兴趣,我可以向你推荐一本里卡多·耶特德写的好书——《现代信息检索》(Modern Information Retrieval())——我想是关于第200页的


希望能有帮助:-)

他们称之为倒转