Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Search 理论上,文档的索引版本是否总是比文档的实际版本占用更少的内存?_Search_Indexing_Inverted Index - Fatal编程技术网

Search 理论上,文档的索引版本是否总是比文档的实际版本占用更少的内存?

Search 理论上,文档的索引版本是否总是比文档的实际版本占用更少的内存?,search,indexing,inverted-index,Search,Indexing,Inverted Index,在此讨论中,我们可以将索引的类型限制为反向索引 例如,假设某个网络爬虫(比如Nutch)对该特定网页进行了爬网,然后将其索引到了say Solr中。爬网的唯一字段是此问题的标题和正文。现在,这两个字段中的文本在内存中有一个确定的大小。但是,当它们被索引时,它们可能占用或可能不占用与实际内容相同大小的内存。是否有可能此文档的索引版本占用的内存比文档的原始大小多,或者它是特定于实现的 嗯?这似乎是一个非常模糊的问题。你能提供一些背景吗?我已经添加了更多的细节。

在此讨论中,我们可以将索引的类型限制为反向索引


例如,假设某个网络爬虫(比如Nutch)对该特定网页进行了爬网,然后将其索引到了say Solr中。爬网的唯一字段是此问题的标题和正文。现在,这两个字段中的文本在内存中有一个确定的大小。但是,当它们被索引时,它们可能占用或可能不占用与实际内容相同大小的内存。是否有可能此文档的索引版本占用的内存比文档的原始大小多,或者它是特定于实现的

嗯?这似乎是一个非常模糊的问题。你能提供一些背景吗?我已经添加了更多的细节。