<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 获取文本字段中最常用的术语_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch

elasticsearch 获取文本字段中最常用的术语

elasticsearch 获取文本字段中最常用的术语,elasticsearch,elasticsearch,如何获取文本字段的所有单个标记及其文档频率的列表。我希望这是为了建立一个特定领域的频繁（因此无用）停止词列表涵盖了迄今为止我发现的所有方法，但 “关键字”数据类型不是选项，因为我对单个术语感兴趣（因此标记化是必要的） “重要术语汇总”不是一个选项，因为我对最频繁的术语感兴趣，而不是最重要的术语 “termvector”不是一个选项，因为我需要它作为孔索引，而不仅仅是一个特定文档或一小部分您必须启用字段上的字段数据才能执行此操作。但是要小心，它会对使用的堆内存产生很大影响非常感谢。尤其是

如何获取文本字段的所有单个标记及其文档频率的列表。我希望这是为了建立一个特定领域的频繁（因此无用）停止词列表

涵盖了迄今为止我发现的所有方法，但

“关键字”数据类型不是选项，因为我对单个术语感兴趣（因此标记化是必要的）
“重要术语汇总”不是一个选项，因为我对最频繁的术语感兴趣，而不是最重要的术语
“termvector”不是一个选项，因为我需要它作为孔索引，而不仅仅是一个特定文档或一小部分

您必须启用字段上的字段数据才能执行此操作。但是要小心，它会对使用的堆内存产生很大影响

非常感谢。尤其是fielddata_frequency_滤波器看起来很有前景。然而，对于这样一件“简单”的事情来说，使用字段数据和agg感觉是相当大的开销。我想知道solr如何以不同的方式处理这个问题（sol有一个“术语”请求处理程序来处理这类问题）