elasticsearch 获取文本字段中最常用的术语,elasticsearch,elasticsearch" /> elasticsearch 获取文本字段中最常用的术语,elasticsearch,elasticsearch" />

elasticsearch 获取文本字段中最常用的术语

elasticsearch 获取文本字段中最常用的术语,elasticsearch,elasticsearch,如何获取文本字段的所有单个标记及其文档频率的列表。我希望这是为了建立一个特定领域的频繁(因此无用)停止词列表 涵盖了迄今为止我发现的所有方法,但 “关键字”数据类型不是选项,因为我对单个术语感兴趣(因此标记化是必要的) “重要术语汇总”不是一个选项,因为我对最频繁的术语感兴趣,而不是最重要的术语 “termvector”不是一个选项,因为我需要它作为孔索引,而不仅仅是一个特定文档或一小部分 您必须启用字段上的字段数据才能执行此操作。 但是要小心,它会对使用的堆内存产生很大影响 非常感谢。尤其是

如何获取文本字段的所有单个标记及其文档频率的列表。我希望这是为了建立一个特定领域的频繁(因此无用)停止词列表

涵盖了迄今为止我发现的所有方法,但

  • “关键字”数据类型不是选项,因为我对单个术语感兴趣(因此标记化是必要的)
  • “重要术语汇总”不是一个选项,因为我对最频繁的术语感兴趣,而不是最重要的术语
  • “termvector”不是一个选项,因为我需要它作为孔索引,而不仅仅是一个特定文档或一小部分

您必须启用字段上的字段数据才能执行此操作。 但是要小心,它会对使用的堆内存产生很大影响


非常感谢。尤其是fielddata_frequency_滤波器看起来很有前景。然而,对于这样一件“简单”的事情来说,使用字段数据和agg感觉是相当大的开销。我想知道solr如何以不同的方式处理这个问题(sol有一个“术语”请求处理程序来处理这类问题)