elasticsearch min_doc_freq在类似于此查询的情况下是如何工作的?,elasticsearch,indexing,lucene,morelikethis,elasticsearch,Indexing,Lucene,Morelikethis" /> elasticsearch min_doc_freq在类似于此查询的情况下是如何工作的?,elasticsearch,indexing,lucene,morelikethis,elasticsearch,Indexing,Lucene,Morelikethis" />

elasticsearch min_doc_freq在类似于此查询的情况下是如何工作的?

elasticsearch min_doc_freq在类似于此查询的情况下是如何工作的?,elasticsearch,indexing,lucene,morelikethis,elasticsearch,Indexing,Lucene,Morelikethis,据我所知,min\u term\u freq=2查看输入文本,该术语仅在至少出现两次时才用于搜索 但是min\u doc\u freq是什么意思?文件上说 输入文档中忽略术语的最小文档频率。默认值为5 但我不知道这意味着什么?它是查看输入文档还是索引的其余部分?Lucene评分公式使用权重来反映单词对语料库中文档的意义 因此,输入文档中具有最高 tf idf是该文件的良好代表,可以使用 在析取查询(或)中检索类似文档 这就是为什么更像这个组件使用这个数字统计的原因 MLT查询只是从输入文档中提取

据我所知,
min\u term\u freq=2
查看输入文本,该术语仅在至少出现两次时才用于搜索

但是
min\u doc\u freq
是什么意思?文件上说

输入文档中忽略术语的最小文档频率。默认值为5


但我不知道这意味着什么?它是查看输入文档还是索引的其余部分?

Lucene评分公式使用权重来反映单词对语料库中文档的意义

因此,输入文档中具有最高 tf idf是该文件的良好代表,可以使用 在析取查询(或)中检索类似文档

这就是为什么更像这个组件使用这个数字统计的原因

MLT查询只是从输入文档中提取文本,然后进行分析 它通常在现场使用相同的分析器,然后选择顶部 K个具有最高tf idf的术语,以形成这些术语的析取查询 条件

idf表示给定术语出现的文档数量的倒数:每个文档中出现的术语将被视为不相关(文档频率高,因此idf低)

话虽如此,在一份文件中只出现一次的单词也可能是打字错误、lorem ipsum摘录或诸如此类的内容:一个没有任何意义的术语,但却具有显著的tf idf权重,因此需要留出一些“空间”,以避免由“理论意义”引起的问题

min\u doc\u freq
允许设置一个阈值,低于该阈值时,任何
docFreq
小于该值的术语(在tf idf最高的选定K个术语中)将从输入文档中被忽略。例如,
min\u doc\u freq=5
术语必须至少出现在5个文档中,否则将从MLT查询中排除。如果您希望MLT返回与给定文档类似的文档,那么只有在查询的术语产生了一个地址正确的主题(至少在5个文档中有地址)的情况下,这才非常有用

那么,它是查看输入文档还是索引的其余部分?
两者:从输入文档中,它需要前K个术语,对于每个术语,检查它们的
docFreq
,这是根据索引查询的术语统计信息

在相同的上下文中,您可以使用
max\u doc\u freq
忽略频繁出现的单词,例如停止词


Lucene评分公式使用权重来反映单词对语料库中文档的意义

因此,输入文档中具有最高 tf idf是该文件的良好代表,可以使用 在析取查询(或)中检索类似文档

这就是为什么更像这个组件使用这个数字统计的原因

MLT查询只是从输入文档中提取文本,然后进行分析 它通常在现场使用相同的分析器,然后选择顶部 K个具有最高tf idf的术语,以形成这些术语的析取查询 条件

idf表示给定术语出现的文档数量的倒数:每个文档中出现的术语将被视为不相关(文档频率高,因此idf低)

话虽如此,在一份文件中只出现一次的单词也可能是打字错误、lorem ipsum摘录或诸如此类的内容:一个没有任何意义的术语,但却具有显著的tf idf权重,因此需要留出一些“空间”,以避免由“理论意义”引起的问题

min\u doc\u freq
允许设置一个阈值,低于该阈值时,任何
docFreq
小于该值的术语(在tf idf最高的选定K个术语中)将从输入文档中被忽略。例如,
min\u doc\u freq=5
术语必须至少出现在5个文档中,否则将从MLT查询中排除。如果您希望MLT返回与给定文档类似的文档,那么只有在查询的术语产生了一个地址正确的主题(至少在5个文档中有地址)的情况下,这才非常有用

那么,它是查看输入文档还是索引的其余部分?
两者:从输入文档中,它需要前K个术语,对于每个术语,检查它们的
docFreq
,这是根据索引查询的术语统计信息

在相同的上下文中,您可以使用
max\u doc\u freq
忽略频繁出现的单词,例如停止词