Html 是否基于突出显示片段从Solr查询中排除重复结果?

Html 是否基于突出显示片段从Solr查询中排除重复结果?,html,search,solr,nutch,Html,Search,Solr,Nutch,现场: 我用Nutch和Solr为许多网站编制了索引。我已经实现了按站点的结果分组。我的结果输出包括页面标题、突出显示片段和URL。我的问题是出现在许多公司网站上的页面导航/版权/公司信息位 例如,对焊料的查询可能会返回200多个特定站点的结果,但实际上只有少数结果是合适的;也许该公司的网站结构包括每个页面上的焊料,作为其核心业务描述、网站导航等的一部分。有相关的结果可看,但他们被网站上其他页面的不相关、重复匹配所淹没 问题是: 我也看到过其他帖子,询问如何防止Nutch和Solr为网站的页眉、

现场:

我用Nutch和Solr为许多网站编制了索引。我已经实现了按站点的结果分组。我的结果输出包括页面标题、突出显示片段和URL。我的问题是出现在许多公司网站上的页面导航/版权/公司信息位

例如,对焊料的查询可能会返回200多个特定站点的结果,但实际上只有少数结果是合适的;也许该公司的网站结构包括每个页面上的焊料,作为其核心业务描述、网站导航等的一部分。有相关的结果可看,但他们被网站上其他页面的不相关、重复匹配所淹没

问题是:

我也看到过其他帖子,询问如何防止Nutch和Solr为网站的页眉、页脚、导航和其他内容编制索引,但对于如此多样化的网站群,这种方法根本不可行。然而,我观察到的是,尽管每个结果的内容都有很大的不同,但返回的突出显示的片段与我不想要的结果是90-100%相同的。注意:

Products | Alloy Information || --------
-Free Solutions Halogen-Free Products Sales Contacts Technical Articles Industry Links Terms & Conditions Products Support Site Map Lead-Free Solutions Halogen-Free Products Sales   Contacts Technical Articles Industry
http://www.--------.com/Products/AlloyInformation.aspx

Products | Chemicals & Cleaners || --------
-Free Solutions Halogen-Free Products Sales Contacts Technical Articles Industry Links Terms & Conditions Products Industrial Division   Products Services News Support Site Map Lead-Free Solutions Halogen-Free Products Sales
http://www.--------.com/Products/ChemicalsCleaners.aspx

Products | Rosin Based || --------
-Free Solutions Halogen-Free Products Sales Contacts Technical Articles Industry Links Terms & Conditions Products   Products Services News Support Site Map Lead-Free Solutions Halogen-Free Products Sales Contacts Technical
http://www.--------.com/Products/RosinBased.aspx

Support | Engineering Guide || --------
-Free Solutions Halogen-Free Products Sales Contacts Technical Articles Industry Links Terms & Conditions Support   Products Services News Support Site Map Lead-Free Solutions   Halogen-Free Products Sales Contacts Technical
http://www.--------.com/Support/EngineeringGuide.aspx
大创意:

这就引出了一个问题:是否可以根据返回的突出显示的代码段对结果进行筛选或分组。我不能仅仅在内容上分组,因为1这个领域很大;而且每页的内容都很不一样。如果我可以对片段相同程度>85%的结果进行分组、排除或重复数据消除,这可能会解决问题。也许是某种后处理步骤或某种标记器工厂?还是搜索结果而不是整个文档集的某种idf

这似乎是一个相当普遍的问题,也许我只是错过了如何做。本质上,这是谷歌的废话,废话你的搜索,我们隐藏了xxx类似的结果。单击此处显示它们的功能


想法?

在基本的shipping Nutch not Solr中有一个集群机制,我真的不知道它是如何工作的,但它做了一些我不得不删除的事情。你看过吗

另一个突然浮现在脑海中的想法是:从导航片段中分别索引真实内容。在搜索时,您可以对“真实内容”字段应用更高的查询权重

这会将“焊料”作为内容的页面向前拉,而不是只使用“焊料”作为导航的页面,但您会保留所有页面以防万一


希望我正确地理解了您的问题。

我认为没有任何方法可以完全按照您的要求进行处理,除非后期处理由您决定,而且对于较大的结果集来说效率不是很高

如果返回的文档实际上完全不同,即使代码片段是相同的,也许您应该问一个不同的问题。如果文档是不同的,那么显示所有文档而不是消除重复大概是有价值的

您可以尝试增强搜索结果显示,以显示有关文档的更多信息,以便用户能够区分它们-可能不依赖于突出显示,但也显示文档的其他部分


我确实认为,问题的核心是需要使站点样板文件中的匹配比其他地方的匹配更不相关。通常,相关性排名在这方面做得很好,因为通用术语对相关性排名不太重要,但如果您混合了来自各种不同站点的文档,您可能会发现效果不太明显,因为一个站点上经常重复的术语在另一个站点上可能非常独特。如果您的结果是由站点真正分割的,您可能会考虑为每个站点创建单独的索引核心——这将具有以站点特定的方式执行相关性计算的效果,这可能有助于解决这个问题。

唯一的问题是,我无法真正将导航与内容分开,因为我无法控制我正在索引的内容的广泛多样性(本质上是随机的)。所有内容,包括导航,最终都会出现在“内容”字段中。在这里创建单独的索引并不切实可行,因为网站数量将不断增加,并且很难实现自动维护,例如添加/删除网站。不过,我认为你对问题的核心是正确的。将我的搜索结果与谷歌的相比,不相关的纯导航页面确实倾向于显示在搜索结果的末尾。也许调整权重会有助于将它们洗牌一点。谢谢