Solr 索引和搜索单词和单词部分

Solr 索引和搜索单词和单词部分,solr,lucene,full-text-search,fuzzy-search,Solr,Lucene,Full Text Search,Fuzzy Search,我刚刚从我们的产品数据库中索引了一堆文本数据。我的目标是评估ApacheSolr的生产使用情况 这是一个文档示例: { "shape":"Geometric", "color":"MATTE BLACK", "gender":"unisex", "model":"CLUBMASTER RX 5154", "sales":10, "lens":"rugged", "material":"plastic", "brand":"Ray-Ban" } 在

我刚刚从我们的产品数据库中索引了一堆文本数据。我的目标是评估ApacheSolr的生产使用情况

这是一个文档示例:

{
   "shape":"Geometric",
   "color":"MATTE BLACK",
   "gender":"unisex",
   "model":"CLUBMASTER RX 5154",
   "sales":10,
   "lens":"rugged",
   "material":"plastic",
   "brand":"Ray-Ban"
}
在我们的搜索应用程序中,最重要的是模糊匹配,因为不准确的搜索词非常常见

所以,我对Solr发现的结果有点失望

例如:

clubmaster -> many results
club master -> no results
为什么

我还试着在学期结束后放~1甚至~2,但运气不好


所有字段都被索引为“*\u txt\u en”预定义字段。

如果不自定义schema/solrconfig以满足您的特定需求,您就不能运行一个严格的生产设置。根据我的猜测,您可以通过以下方式获得想要的结果:

  • 将文本字段复制到具有不同分析的不同版本,例如:
    • 一个是字符串类型,很难匹配
    • 用于匹配前缀的一个字段
    • 另一个使用WordDelimiterFilterFactory匹配ray-ban/rayban的
  • 用作查询解析器
  • 在eDiscoveryMax中,有很多东西需要调整。但最重要的是:搜索上面的所有字段,但权重不同,分析越少,权重越大

  • 可能会对您有所帮助。“一个字段在开始时使用Edengram匹配word的某些部分”。。。。你能给我一些关于它的阅读资料吗,关于我的具体案例(俱乐部主人-俱乐部主人)?添加了一个到文档的链接。但了解其工作原理的最好方法是设置一个示例字段,并在Solr dashboard的分析页面中查看它的工作情况
    ray ban -> many results
    rayban -> no results