Search 理论上,文档的索引版本是否总是比文档的实际版本占用更少的内存?
在此讨论中,我们可以将索引的类型限制为反向索引Search 理论上,文档的索引版本是否总是比文档的实际版本占用更少的内存?,search,indexing,inverted-index,Search,Indexing,Inverted Index,在此讨论中,我们可以将索引的类型限制为反向索引 例如,假设某个网络爬虫(比如Nutch)对该特定网页进行了爬网,然后将其索引到了say Solr中。爬网的唯一字段是此问题的标题和正文。现在,这两个字段中的文本在内存中有一个确定的大小。但是,当它们被索引时,它们可能占用或可能不占用与实际内容相同大小的内存。是否有可能此文档的索引版本占用的内存比文档的原始大小多,或者它是特定于实现的 嗯?这似乎是一个非常模糊的问题。你能提供一些背景吗?我已经添加了更多的细节。
例如,假设某个网络爬虫(比如Nutch)对该特定网页进行了爬网,然后将其索引到了say Solr中。爬网的唯一字段是此问题的标题和正文。现在,这两个字段中的文本在内存中有一个确定的大小。但是,当它们被索引时,它们可能占用或可能不占用与实际内容相同大小的内存。是否有可能此文档的索引版本占用的内存比文档的原始大小多,或者它是特定于实现的 嗯?这似乎是一个非常模糊的问题。你能提供一些背景吗?我已经添加了更多的细节。