<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch min_doc_freq在类似于此查询的情况下是如何工作的？_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Indexing_Lucene_Morelikethis

elasticsearch min_doc_freq在类似于此查询的情况下是如何工作的？

indexing lucene

elasticsearch min_doc_freq在类似于此查询的情况下是如何工作的？,elasticsearch,indexing,lucene,morelikethis,elasticsearch,Indexing,Lucene,Morelikethis,据我所知，min\u term\u freq=2查看输入文本，该术语仅在至少出现两次时才用于搜索但是min\u doc\u freq是什么意思？文件上说输入文档中忽略术语的最小文档频率。默认值为5 但我不知道这意味着什么？它是查看输入文档还是索引的其余部分？Lucene评分公式使用权重来反映单词对语料库中文档的意义因此，输入文档中具有最高 tf idf是该文件的良好代表，可以使用在析取查询（或）中检索类似文档这就是为什么更像这个组件使用这个数字统计的原因 MLT查询只是从输入文档中提取

据我所知，

min\u term\u freq=2

查看输入文本，该术语仅在至少出现两次时才用于搜索

但是

min\u doc\u freq

是什么意思？文件上说

输入文档中忽略术语的最小文档频率。默认值为5

但我不知道这意味着什么？它是查看输入文档还是索引的其余部分？

Lucene评分公式使用权重来反映单词对语料库中文档的意义

因此，输入文档中具有最高 tf idf是该文件的良好代表，可以使用在析取查询（或）中检索类似文档

这就是为什么更像这个组件使用这个数字统计的原因

MLT查询只是从输入文档中提取文本，然后进行分析它通常在现场使用相同的分析器，然后选择顶部 K个具有最高tf idf的术语，以形成这些术语的析取查询条件

idf表示给定术语出现的文档数量的倒数：每个文档中出现的术语将被视为不相关（文档频率高，因此idf低）

话虽如此，在一份文件中只出现一次的单词也可能是打字错误、lorem ipsum摘录或诸如此类的内容：一个没有任何意义的术语，但却具有显著的tf idf权重，因此需要留出一些“空间”，以避免由“理论意义”引起的问题

min\u doc\u freq

允许设置一个阈值，低于该阈值时，任何

docFreq

小于该值的术语（在tf idf最高的选定K个术语中）将从输入文档中被忽略。例如，

min\u doc\u freq=5

术语必须至少出现在5个文档中，否则将从MLT查询中排除。如果您希望MLT返回与给定文档类似的文档，那么只有在查询的术语产生了一个地址正确的主题（至少在5个文档中有地址）的情况下，这才非常有用

那么，它是查看输入文档还是索引的其余部分？
两者：从输入文档中，它需要前K个术语，对于每个术语，检查它们的

docFreq

，这是根据索引查询的术语统计信息

在相同的上下文中，您可以使用

max\u doc\u freq

忽略频繁出现的单词，例如停止词