Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/file/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/jquery/75.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
File 反向索引需要的文件格式_File_Indexing_Format_Inverted Index - Fatal编程技术网

File 反向索引需要的文件格式

File 反向索引需要的文件格式,file,indexing,format,inverted-index,File,Indexing,Format,Inverted Index,我一直在研究反向索引,它为文档集合编制索引,用信息存储每个术语,还将其引用存储在发布文件中(文档id、位置等) 目前,我将其存储为.txt文件格式,需要为每个与该.txt文件相关的查询进行字符串匹配,这需要更多的时间和更复杂的内容 现在,我想将这些信息存储在类似于链表样式的数据结构的文件中。那么,这种情况是否可能。。。。(我还使用PHP语言编制索引) 任何帮助都将不胜感激,谢谢 倒排索引的要点是允许非常快速地访问任何给定术语的事件列表(发布列表)。如果您想使用简单、随时可用的数据结构来实现它,那

我一直在研究反向索引,它为文档集合编制索引,用信息存储每个术语,还将其引用存储在发布文件中(文档id、位置等)

目前,我将其存储为.txt文件格式,需要为每个与该.txt文件相关的查询进行字符串匹配,这需要更多的时间和更复杂的内容

现在,我想将这些信息存储在类似于链表样式的数据结构的文件中。那么,这种情况是否可能。。。。(我还使用PHP语言编制索引)


任何帮助都将不胜感激,谢谢

倒排索引的要点是允许非常快速地访问任何给定术语的事件列表(发布列表)。如果您想使用简单、随时可用的数据结构来实现它,那么最好的方法可能是

  • 使用散列存储从术语到发布列表的映射
  • 将每个过帐列表存储为连续的已排序整数块(例如Java中的
    ArrayList
    或C++中的
    std::vector
    )。不要使用链表,因为这会为指针浪费大量空间
更恰当(更复杂)的实施将考虑:

  • 发帖列表可能会变得非常大,因此您必须将其分解为多个块,每个块存储为一个连续块
  • 发帖列表可以而且应该被压缩

这些技术的详细描述见经典书籍。

实际上,目前我的数据存储在.txt文件中,检索数据时需要进行文本匹配。所以基本上我想知道如何减少匹配处理,并直接获得一个术语或帖子列表信息…谢谢。