Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/vue.js/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Lucene 常用关键字/短语_Lucene_Solr_Keyword_Similarity - Fatal编程技术网

Lucene 常用关键字/短语

Lucene 常用关键字/短语,lucene,solr,keyword,similarity,Lucene,Solr,Keyword,Similarity,我通过PHP使用Solr搜索我网站的所有方面。我正在尝试实现一个功能,但找不到有关如何实现它的任何信息 我有一组文档(评论),每个文档都是关于特定产品的 我想找到在单个产品的多个评论中出现的唯一1-2个单词的关键字(没有停止词),并计算它们出现在多个评论中的次数 一旦我有了这些,我想显示前X个关键词,它们在评论中的数量,以及每个关键词的单个顶部评论突出显示了该关键词的使用 编辑: 一旦我有了一个在多个评论中出现的唯一(不间断词/常用词)关键词列表,我想根据它们在评论中出现的次数对它们进行排名。例

我通过PHP使用Solr搜索我网站的所有方面。我正在尝试实现一个功能,但找不到有关如何实现它的任何信息

我有一组文档(评论),每个文档都是关于特定产品的

我想找到在单个产品的多个评论中出现的唯一1-2个单词的关键字(没有停止词),并计算它们出现在多个评论中的次数

一旦我有了这些,我想显示前X个关键词,它们在评论中的数量,以及每个关键词的单个顶部评论突出显示了该关键词的使用

编辑:

一旦我有了一个在多个评论中出现的唯一(不间断词/常用词)关键词列表,我想根据它们在评论中出现的次数对它们进行排名。例如,如果人们正在撰写有关相机的评论,则关键字可能如下所示:

昂贵(出现在7篇评论中) 快门速度(出现在5个评论中) 形象不佳(出现在3篇评论中)

一旦我有了按评论数量排列的关键词,我想为每个关键词选择一个评论,并显示突出显示该关键词的那些评论。例如:

“…不幸的是,这款相机太贵了,你买不到…”(7篇评论) “…快门速度对于…”来说太慢了(在5篇评论中) “…较差的图像质量是相机最大的缺点…”(在3篇评论中)

至于什么时候运行这个,我还不确定。可能是实时的(当您查看一个产品,然后缓存X时间),每当发布新评论时,标记要更新的产品,或在cronjob日报上,等等。它不会一次针对所有关键字运行,而是针对单个产品的所有评论中的所有关键字运行。然后对每种产品重复

希望这更有意义


对于如何在Solr中完成此任务的任何帮助,我们将不胜感激。

此任务并不特别适合Solr。使用solr所获得的唯一好处是词干/停止字支持,如果在本地算法中实现,这将快得多。我将在数据库中创建一个新表,用于“review_keyword”将评论映射到关键字singleton和pairs。插入新评论时,还要为评论中的每个关键字添加一个到单独行的映射(这就是词干/停止词的作用)。当您要查找某个产品的评论时,可以在此表中运行联接选择,以获取该产品评论中的顶级关键字以及该集合中的评论。根据您的使用情况,最好在更新时运行,而不是在查询时运行。

这看起来像是文本解析器的工作,而不是solr。您可能需要一个python脚本(因为它有很好的文本解析libs),用于查看评论中的所有单词,然后给出每个评论(或所有评论)中出现频率最高的单词及其计数。然后,您可以在这些最常见的词的两侧索引几个词,并为您的文档(本例中的产品)创建一个摘要,然后在Solr中将其索引,作为搜索结果的一部分返回。

我觉得您要查找的是。您可以使用它生成单字图/双字图(可能带有一个copyfield)然后获取这些令牌的统计信息以生成接口

你能澄清一下这个问题吗?你的第四段对我来说毫无意义。你如何定义top?哪个突出显示?是否要同时对所有关键字运行此操作?