elasticsearch 将分析字段聚合为纯文本,而不是Elasticsearch中的术语,elasticsearch,lucene,aggregate,elasticsearch,Lucene,Aggregate" /> elasticsearch 将分析字段聚合为纯文本,而不是Elasticsearch中的术语,elasticsearch,lucene,aggregate,elasticsearch,Lucene,Aggregate" />

elasticsearch 将分析字段聚合为纯文本,而不是Elasticsearch中的术语

elasticsearch 将分析字段聚合为纯文本,而不是Elasticsearch中的术语,elasticsearch,lucene,aggregate,elasticsearch,Lucene,Aggregate,因此,我们的Elasticsearch集群存在一个问题,通过它,我们创建了一些旧索引,其中某个字段被“分析”。现在,该字段可以包含“-”或“u”符号,我们的一个查询通过该字段聚合。 由于正在分析此字段,因此如果该字段包含这些字符中的任何操作系统,它将按其包含的每个单词进行聚合。i、 e: “analyzedField”:“我喜欢苹果” 当我们抛出一个按其聚合的查询时,如下所示: { "query":{ "filtered":{ "filter":{ [...]

因此,我们的Elasticsearch集群存在一个问题,通过它,我们创建了一些旧索引,其中某个字段被“分析”。现在,该字段可以包含“-”或“u”符号,我们的一个查询通过该字段聚合。 由于正在分析此字段,因此如果该字段包含这些字符中的任何操作系统,它将按其包含的每个单词进行聚合。i、 e:

“analyzedField”:“我喜欢苹果”

当我们抛出一个按其聚合的查询时,如下所示:

{
"query":{
  "filtered":{
     "filter":{
        [...]
     }
  }
 },
"aggs":{
 "type":{
     "terms":{
         "field":"analyzedField"
           }
        }
    }
}
它返回按字段的每个项聚合的结果,类似于:

{
 "took": 13,
 "timed_out": false,
 "_shards": {
   "total": 10,
   "successful": 10,
   "failed": 0
 },
 "hits": {
   "total": 192,
   "max_score": 0,
   "hits": []
 },
 "aggregations": {
       "type": {
         "doc_count_error_upper_bound": 0,
         "sum_other_doc_count": 0,
         "buckets": [
           {
             "key": "I",
             "doc_count": 192
           },
           {
             "key": "like",
             "doc_count": 192
           },
           {
             "key": "apples",
             "doc_count": 192
           }
{
 "took": 1,
 "timed_out": false,
 "_shards": {
   "total": 10,
   "successful": 10,
   "failed": 0
 },
 "hits": {
   "total": 1,
   "max_score": 0,
   "hits": []
 },
 "aggregations": {
      "type": {
        "doc_count_error_upper_bound": 0,
        "sum_other_doc_count": 0,
        "buckets": [
          {
            "key": "I-like-apples",
            "doc_count": 192
          }
而不是像:

{
 "took": 13,
 "timed_out": false,
 "_shards": {
   "total": 10,
   "successful": 10,
   "failed": 0
 },
 "hits": {
   "total": 192,
   "max_score": 0,
   "hits": []
 },
 "aggregations": {
       "type": {
         "doc_count_error_upper_bound": 0,
         "sum_other_doc_count": 0,
         "buckets": [
           {
             "key": "I",
             "doc_count": 192
           },
           {
             "key": "like",
             "doc_count": 192
           },
           {
             "key": "apples",
             "doc_count": 192
           }
{
 "took": 1,
 "timed_out": false,
 "_shards": {
   "total": 10,
   "successful": 10,
   "failed": 0
 },
 "hits": {
   "total": 1,
   "max_score": 0,
   "hits": []
 },
 "aggregations": {
      "type": {
        "doc_count_error_upper_bound": 0,
        "sum_other_doc_count": 0,
        "buckets": [
          {
            "key": "I-like-apples",
            "doc_count": 192
          }
  • 不幸的是,由于这些索引的大小,使用“未分析”字段重新创建这些索引不是一个选项

  • 那么,我们还有什么其他选择呢?是否可以以某种方式修改映射,使其停止分析该字段,而不必完全重新创建索引

  • 我们如何修改查询以将该字段视为纯文本而不是术语

我的弹性搜索知识相当基础,所以如果我写了一些废话,请原谅

多谢各位
问候语

您只需重新编制索引,而无需对该字段进行分析。如果你做不到这一点,你就不走运了。您必须以实际支持搜索要求的形式为数据编制索引。垃圾进来,垃圾出去。我想象的。。。那么在查询方面呢?我是否可以更改以使其将字段视为未分析字段?@femtoRgon是正确的,并回答了这个问题。你不能调整你的查询并得到你想要的。您需要重新编制数据索引。你是个新手,所以我推荐你阅读。您需要将字段映射为未分析的字段(如果需要分析版本和未分析版本,请使用两个字段并将未分析的字段后缀为-raw)。还要确保在非分析字段上使用文档值(ES 2.0>默认情况下这样做),我明白了。。。我不需要分析这个领域。是的,我们正确地创建了新索引(未分析),但有一些旧索引(顺便说一句,最大的索引)没有正确创建