Lucene 常用关键字/短语
我通过PHP使用Solr搜索我网站的所有方面。我正在尝试实现一个功能,但找不到有关如何实现它的任何信息 我有一组文档(评论),每个文档都是关于特定产品的 我想找到在单个产品的多个评论中出现的唯一1-2个单词的关键字(没有停止词),并计算它们出现在多个评论中的次数 一旦我有了这些,我想显示前X个关键词,它们在评论中的数量,以及每个关键词的单个顶部评论突出显示了该关键词的使用 编辑: 一旦我有了一个在多个评论中出现的唯一(不间断词/常用词)关键词列表,我想根据它们在评论中出现的次数对它们进行排名。例如,如果人们正在撰写有关相机的评论,则关键字可能如下所示: 昂贵(出现在7篇评论中) 快门速度(出现在5个评论中) 形象不佳(出现在3篇评论中) 一旦我有了按评论数量排列的关键词,我想为每个关键词选择一个评论,并显示突出显示该关键词的那些评论。例如: “…不幸的是,这款相机太贵了,你买不到…”(7篇评论) “…快门速度对于…”来说太慢了(在5篇评论中) “…较差的图像质量是相机最大的缺点…”(在3篇评论中) 至于什么时候运行这个,我还不确定。可能是实时的(当您查看一个产品,然后缓存X时间),每当发布新评论时,标记要更新的产品,或在cronjob日报上,等等。它不会一次针对所有关键字运行,而是针对单个产品的所有评论中的所有关键字运行。然后对每种产品重复 希望这更有意义Lucene 常用关键字/短语,lucene,solr,keyword,similarity,Lucene,Solr,Keyword,Similarity,我通过PHP使用Solr搜索我网站的所有方面。我正在尝试实现一个功能,但找不到有关如何实现它的任何信息 我有一组文档(评论),每个文档都是关于特定产品的 我想找到在单个产品的多个评论中出现的唯一1-2个单词的关键字(没有停止词),并计算它们出现在多个评论中的次数 一旦我有了这些,我想显示前X个关键词,它们在评论中的数量,以及每个关键词的单个顶部评论突出显示了该关键词的使用 编辑: 一旦我有了一个在多个评论中出现的唯一(不间断词/常用词)关键词列表,我想根据它们在评论中出现的次数对它们进行排名。例
对于如何在Solr中完成此任务的任何帮助,我们将不胜感激。此任务并不特别适合Solr。使用solr所获得的唯一好处是词干/停止字支持,如果在本地算法中实现,这将快得多。我将在数据库中创建一个新表,用于“review_keyword”将评论映射到关键字singleton和pairs。插入新评论时,还要为评论中的每个关键字添加一个到单独行的映射(这就是词干/停止词的作用)。当您要查找某个产品的评论时,可以在此表中运行联接选择,以获取该产品评论中的顶级关键字以及该集合中的评论。根据您的使用情况,最好在更新时运行,而不是在查询时运行。这看起来像是文本解析器的工作,而不是solr。您可能需要一个python脚本(因为它有很好的文本解析libs),用于查看评论中的所有单词,然后给出每个评论(或所有评论)中出现频率最高的单词及其计数。然后,您可以在这些最常见的词的两侧索引几个词,并为您的文档(本例中的产品)创建一个摘要,然后在Solr中将其索引,作为搜索结果的一部分返回。我觉得您要查找的是。您可以使用它生成单字图/双字图(可能带有一个copyfield)然后获取这些令牌的统计信息以生成接口 你能澄清一下这个问题吗?你的第四段对我来说毫无意义。你如何定义top?哪个突出显示?是否要同时对所有关键字运行此操作?