Parsing 术语提取:从文本中生成标记

Parsing 术语提取:从文本中生成标记,parsing,tags,solr,tokenize,Parsing,Tags,Solr,Tokenize,如何获得与相同的结果 这个问题以前已经被问过好几次了 试图用现有的解决方案解决这个问题时,我偶然发现Solr在索引之前对文档执行“文本分析”,如中所述,这也包括词干分析 因此,最终索引将主要由用于描述文档的术语组成 是否有提供直接使用的分析器、令牌化器和令牌过滤器的解决方案?如果solr是出路,那么从solr的索引中获取这些数据的最佳方法是什么?solr是创建自定义搜索引擎的一种方法。它似乎不是这项工作的合适工具。其“外部链接”部分列出了几个用于术语提取的web应用程序。有一个可能有用

如何获得与相同的结果

这个问题以前已经被问过好几次了

试图用现有的解决方案解决这个问题时,我偶然发现Solr在索引之前对文档执行“文本分析”,如中所述,这也包括词干分析

因此,最终索引将主要由用于描述文档的术语组成


是否有提供直接使用的分析器、令牌化器和令牌过滤器的解决方案?如果solr是出路,那么从solr的索引中获取这些数据的最佳方法是什么?

solr是创建自定义搜索引擎的一种方法。它似乎不是这项工作的合适工具。其“外部链接”部分列出了几个用于术语提取的web应用程序。有一个可能有用的工具列表。可能会有帮助。

只需询问解析的术语即可

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

更多信息。

是的,Solr术语将只返回唯一的标记(可能减去一些常用词,并进行词干分析等)。它不会真正告诉你文本中什么是重要的。不管它值多少钱,你都可以通过