Indexing Solr如何索引文档?

Indexing Solr如何索引文档?,indexing,solr,lucene,Indexing,Solr,Lucene,我是Solr的新手,我想确切地了解它是如何索引文档的 比如说,我有一个100 MB的文档,文档1全文。文本不是结构化的,它只是原始文本。我将该文档发送给Solr以便编制索引 据我所知,Lucene将根据默认模式解析文档,提取所有单词让我们假设我们使用默认模式,并创建一个基本上是单词和文档列表之间映射的索引,如下所示: word1->[文档1] word2->[document1] 等 现在,如果我想搜索单词word1,Solr会给我包含单词word1的整个100MB文档,对吗 如果我错了,请纠正

我是Solr的新手,我想确切地了解它是如何索引文档的

比如说,我有一个100 MB的文档,文档1全文。文本不是结构化的,它只是原始文本。我将该文档发送给Solr以便编制索引

据我所知,Lucene将根据默认模式解析文档,提取所有单词让我们假设我们使用默认模式,并创建一个基本上是单词和文档列表之间映射的索引,如下所示:

word1->[文档1]

word2->[document1]

现在,如果我想搜索单词word1,Solr会给我包含单词word1的整个100MB文档,对吗


如果我错了,请纠正我,我需要确切地理解它是如何工作的。

您描述了索引部分的大部分内容,至少在高层次上是这样。之所以要收回所有文档,是因为您的字段是Solr模式中的一个字段,至少在默认情况下是正确的

这意味着,除了有一个 word1->doc1,doc3 word2->doc2,doc3 等等

Solr/Lucene还存储字段的原始内容,因此可以将其返回给您。您可以通过在模式中说stored=false来明确地关闭它,或者在节中过滤掉它,只请求fl=id或类似的东西


如果您只想返回文档的一部分,在搜索的文档周围,您可以使用。在Solr中突出显示允许将与用户查询匹配的文档片段包含在查询响应中。

好的,谢谢您的回答。有没有办法只收回文件的一部分?例如,搜索到的单词周围的单词,或者类似的东西?我想这是不可能的,因为Solr是以返回文档的方式构建的