elasticsearch 基于地址索引的弹性搜索查询,elasticsearch,indexing,autocomplete,lucene,mapping,elasticsearch,Indexing,Autocomplete,Lucene,Mapping" /> elasticsearch 基于地址索引的弹性搜索查询,elasticsearch,indexing,autocomplete,lucene,mapping,elasticsearch,Indexing,Autocomplete,Lucene,Mapping" />

elasticsearch 基于地址索引的弹性搜索查询

elasticsearch 基于地址索引的弹性搜索查询,elasticsearch,indexing,autocomplete,lucene,mapping,elasticsearch,Indexing,Autocomplete,Lucene,Mapping,我真的很难得到一个基于地址的索引来返回结果,就像自动完成一样,我一直在尝试两种不同的方法,我开始尝试使用nGram的和自定义的分析器,但我真的很难得到相关的结果,以显示当使用地址自动完成时人们的期望 我关注的第二个方法是看看elasticsearch ships的完成提示器是否更容易工作,但我似乎在各个方向都遇到了障碍 我们根据每个键的输入值定期发送客户端API调用 我似乎面临的问题是。。我没有返回足够相关的结果,如果/当它们相关时,一个额外的字符部分词可以强制不返回任何结果 例如以下地址:7西

我真的很难得到一个基于地址的索引来返回结果,就像自动完成一样,我一直在尝试两种不同的方法,我开始尝试使用nGram的和自定义的分析器,但我真的很难得到相关的结果,以显示当使用地址自动完成时人们的期望

我关注的第二个方法是看看elasticsearch ships的完成提示器是否更容易工作,但我似乎在各个方向都遇到了障碍

我们根据每个键的输入值定期发送客户端API调用

我似乎面临的问题是。。我没有返回足够相关的结果,如果/当它们相关时,一个额外的字符部分词可以强制不返回任何结果

例如以下地址:7西山花园,西山EX9 6BL

我的文档存储方式如下:

完成建议者 完成建议映射: 注:我在建议中将preserve_分隔符设置为false,以允许west hill也与westhill匹配,这在建议中效果良好,但在我的nGram索引中,我不确定如何使用映射启用相同的功能,我相信这可能是我没有返回相关结果的问题的一部分

当我使用以下查询查询7 westhill gardens时,建议使用:

{
  "suggest": {
    "suggestions": {
     "prefix": "7 westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2 // Also tried with no fuzzy and fuzziness: 1
        }
      }
    }
  }
}
返回以下结果:

"address": "7, Westhill Gardens, Brackley NN136AA",
"address": "7, Westhill Gardens, Bromyard HR74HW",
"address": "7, West Hill Gardens, West Hill, Budleigh Salterton EX96BL",
但是,如果我从查询中删除数字7并执行此查询,则不会返回任何结果,这是一个关键问题,因为并非所有用户都会以给定的门牌号开始查询,并且通常会以西山花园(west hill gardens)和7西山花园(west hill gardens)来执行搜索

最后,如果我只查询如下所示的门牌号,则不会返回任何结果

{
  "suggest": {
    "suggestions": {
      "prefix": "7 EX9 6BL",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}

我希望比我更有经验的人能对最好的方法是什么以及我是否应该坚持使用nGrams并尝试使用定制的分析器/过滤器方法给出一些想法。。还是我完全错了?!我刚刚开始学习elasticsearch,因此如果我的术语不正确,我向您致歉。

完成建议者只完成完成完成字段中给出的确切术语,因此没有7的查询将返回零结果


使用nGrams的解决方案是可行的。

完成建议器只完成完成完成字段中给出的确切术语,因此没有7的查询返回零结果


使用nGrams的解决方案是可行的。

更多地考虑完成建议,从。。。机械装置文档说明:完成提示器是所谓的前缀提示器。因此,有了这种类型的搜索,你可能无法得到你想要的一切

为了更接近它,一种解决方案是将preserve_position_增量和stopwords分析器结合起来。首先使用以下设置创建索引:

{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_stop_analyzer": {
          "type": "stop"
        }
      }
    }
  }
}
然后映射文档类型:

{
  "properties": {
    "suggest": {
      "type": "completion",
      "preserve_separators": false,
      "preserve_position_increments": false
    },
    "address": {
      "type": "text"
    },
    "id": {
      "type": "keyword"
    }
  }
}
然后这个查询:

{
  "suggest": {
    "suggestions": {
     "prefix": "westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}
这将导致:

"address": "5, West hill Gardens, Bromyard AAA"
"address": "7, Westhill Gardens, Bromyard HR74HW"
但如果你尝试搜索:prefix:7 gardens,它不会给你结果,因为这种机制的所谓prefix suggester特性

另一种选择是什么?如前所述,您也可以尝试使用查询字符串。举个简单的例子,假设您有一个标准映射:

{
  "properties": {
    "suggest": {
      "type": "text"
    },
    "address": {
      "type": "text"
    },
    "id": {
      "type": "keyword"
    }
  }
}
然后使用查询字符串:

它给了我一个结果,例如:

"address": "267, Westhill Gardens, Bromyard HR74HW",
"address": "5, West hill Gardens, Bromyard AAA",
"address": "1, West hill Bromyard HR74HW"
但请注意,使用*通配符会导致性能和内存消耗降低。当然,避免在术语开头使用*但另一方面,查询字符串是一个非常通用的工具

***NGram案例更新*** 正如我以前写过的关于NGrams的文章,我将在这里发布它的第一个想法

一些初步假设:

输入3个字符后启用自动完成设置:最小值:3 我们需要分析数字、空格、COMA等-如果用户类型为7,我们需要得到一组结果 为了测试enable ngram vector-它允许查看它的实际工作方式设置term_vector:是,但应在生产中禁用 映射-用于索引和类型-如下所示:

{
   "settings": {
      "number_of_shards": 1,
      "analysis": {
         "tokenizer": {
            "ngram_tokenizer": {
               "type": "nGram",
               "min_gram": 3,
               "max_gram": 10
            }
         },
         "analyzer": {
            "ngram_tokenizer_analyzer": {
               "type": "custom",
               "tokenizer": "ngram_tokenizer"
            }
         }
      }
   },
   "mappings": {
      "addresses": {
         "properties": {
            "suggest": {
               "type": "text",
               "term_vector": "yes",
               "analyzer": "ngram_tokenizer_analyzer"
            },
            "address": {
              "type": "text"
            },
            "id": {
              "type": "keyword"
            }
         }
      }
   }
}
现在,可以为文档编制索引。借助术语_vector:yes,您可以检查analyzer的工作方式:

GET http://127.0.0.1:9200/sug/addresses/{documentId}/_termvector?fields=suggest
在此之后,这次的查询Bool查询非常简单:

{ 
  "query" : 
  { "bool" : 
    { "must" : [ 
        { "match" : { "suggest": { "query": "1, Westhil" } } }
    ]}
}
}


我认为它应该满足您描述的所有要求-搜索地址的起始部分、门牌号或任何其他部分,以及空格问题。如果确实有必要,您可以将最小克数减少到2。如果您需要了解更多细节,请随意提问,或者按照您的建议,提出一个新问题。

将完成建议更多地看作是从。。。机械装置文档说明:完成提示器是所谓的前缀提示器。因此,通过这种类型的搜索,您可能会 没有你想要的一切

为了更接近它,一种解决方案是将preserve_position_增量和stopwords分析器结合起来。首先使用以下设置创建索引:

{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_stop_analyzer": {
          "type": "stop"
        }
      }
    }
  }
}
然后映射文档类型:

{
  "properties": {
    "suggest": {
      "type": "completion",
      "preserve_separators": false,
      "preserve_position_increments": false
    },
    "address": {
      "type": "text"
    },
    "id": {
      "type": "keyword"
    }
  }
}
然后这个查询:

{
  "suggest": {
    "suggestions": {
     "prefix": "westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}
这将导致:

"address": "5, West hill Gardens, Bromyard AAA"
"address": "7, Westhill Gardens, Bromyard HR74HW"
但如果你尝试搜索:prefix:7 gardens,它不会给你结果,因为这种机制的所谓prefix suggester特性

另一种选择是什么?如前所述,您也可以尝试使用查询字符串。举个简单的例子,假设您有一个标准映射:

{
  "properties": {
    "suggest": {
      "type": "text"
    },
    "address": {
      "type": "text"
    },
    "id": {
      "type": "keyword"
    }
  }
}
然后使用查询字符串:

它给了我一个结果,例如:

"address": "267, Westhill Gardens, Bromyard HR74HW",
"address": "5, West hill Gardens, Bromyard AAA",
"address": "1, West hill Bromyard HR74HW"
但请注意,使用*通配符会导致性能和内存消耗降低。当然,避免在术语开头使用*但另一方面,查询字符串是一个非常通用的工具

***NGram案例更新*** 正如我以前写过的关于NGrams的文章,我将在这里发布它的第一个想法

一些初步假设:

输入3个字符后启用自动完成设置:最小值:3 我们需要分析数字、空格、COMA等-如果用户类型为7,我们需要得到一组结果 为了测试enable ngram vector-它允许查看它的实际工作方式设置term_vector:是,但应在生产中禁用 映射-用于索引和类型-如下所示:

{
   "settings": {
      "number_of_shards": 1,
      "analysis": {
         "tokenizer": {
            "ngram_tokenizer": {
               "type": "nGram",
               "min_gram": 3,
               "max_gram": 10
            }
         },
         "analyzer": {
            "ngram_tokenizer_analyzer": {
               "type": "custom",
               "tokenizer": "ngram_tokenizer"
            }
         }
      }
   },
   "mappings": {
      "addresses": {
         "properties": {
            "suggest": {
               "type": "text",
               "term_vector": "yes",
               "analyzer": "ngram_tokenizer_analyzer"
            },
            "address": {
              "type": "text"
            },
            "id": {
              "type": "keyword"
            }
         }
      }
   }
}
现在,可以为文档编制索引。借助术语_vector:yes,您可以检查analyzer的工作方式:

GET http://127.0.0.1:9200/sug/addresses/{documentId}/_termvector?fields=suggest
在此之后,这次的查询Bool查询非常简单:

{ 
  "query" : 
  { "bool" : 
    { "must" : [ 
        { "match" : { "suggest": { "query": "1, Westhil" } } }
    ]}
}
}


我认为它应该满足您描述的所有要求-搜索地址的起始部分、门牌号或任何其他部分,以及空格问题。如果确实有必要,您可以将最小克数减少到2。如果您需要了解更多细节,请随意提问,或者按照您的建议,提出一个新问题。

嗨,乔安娜,非常感谢您抽出时间给我提一些建议并伸出援助之手。据我所见。。在我的nGram索引上执行上面的query_字符串查询,对默认字段做了一些轻微的更改,并使用字段代替默认字段,这似乎改善了情况。与其将所有映射发布到我的nGram索引,并用另一个问题淹没这个问题,您是否可以分享一些关于nGram索引的建议,以及完成建议如果我创建另一个问题并共享链接,我们将不胜感激。是的,这是一个有趣的案例,我会尽力提供帮助。我用一个通用的ngram案例更新了我的答案-如果您还有一些案例没有按照预期工作,请随时询问。嗨,Joanna,对不起,我刚刚有机会回到S/O。感谢您抽出时间添加ngram解决方案。我现在就看一下,如果它是值得我创建另一个职位,我会这样做,因为它会给你所有的信用,因为我现在接受这个答案,你应该得到的信用:-谢谢你,我真的很感激。乔安娜,我已经看过你说的,它非常接近我的设置在nGram索引我之前提到的,所以我认为最好的做法是创建另一个问题并向您展示我的映射。也就是说,我还为你的映射添加了一个新的索引,它会返回结果,唯一的问题是排名,但我会为1000万个地址编制索引,并将再次执行查询,以查看它们如何处理更多数据,我还将提出另一个问题,并在那里发布所有内容,包括我得到的结果,但在英国时间已晚4:47,所以我将提出这个问题……嗨,乔安娜,非常感谢你抽出时间给我一些建议并伸出援助之手。据我所见。。在我的nGram索引上执行上面的query_字符串查询,对默认字段做了一些轻微的更改,并使用字段代替默认字段,这似乎改善了情况。与其将所有映射发布到我的nGram索引,并用另一个问题淹没这个问题,您是否可以分享一些关于nGram索引的建议,以及完成建议如果我创建另一个问题并共享链接,我们将不胜感激。是的,这是一个有趣的案例,我会尽力提供帮助。我用一个通用的ngram案例更新了我的答案-如果您还有一些案例没有按照预期工作,请随时询问。嗨,Joanna,对不起,我刚刚有机会回到S/O。感谢您抽出时间添加ngram解决方案。我现在就看一下,如果它是值得我创建另一个职位,我会这样做,因为它会给你所有的信用,因为我现在接受这个答案,你应该得到的信用:-谢谢你,我真的很感激。乔安娜,我已经看过你说的,它非常接近我的设置在nGram索引我之前提到的,所以我认为最好的做法是创建另一个问题并向您展示我的映射。话虽如此,我也 添加了一个新的映射索引,它会返回结果,唯一的问题是排名,但im会索引1000万个地址,并将再次执行查询,以查看它们如何处理更多数据,我还将创建另一个问题,并在那里发布所有内容,包括我得到的结果,但在英国时间已晚,所以我将创建问题。。。。