sphinx搜索:如何获取词干的频率词列表?

sphinx搜索:如何获取词干的频率词列表?,sphinx,stemming,Sphinx,Stemming,我正试图从indexer命令行工具中获取单词的频率列表,并将其与未插入的单词一起获取,尽管我在索引设置中设置了morphology=stem\u en,并且搜索本身在具有相同词干的单词上运行良好。有没有办法得到带有词干的单词的列表?我能想到的唯一方法是获取indexer的输出,然后通过BuildKeywords API运行它,以获得词干计数。可以在一个API调用中放入数千个关键字,因此它相当轻量级 你能具体说明根据你的建议应该做什么吗。我正在使用thinking_sphinx包装器和rails。

我正试图从
indexer
命令行工具中获取单词的频率列表,并将其与未插入的单词一起获取,尽管我在索引设置中设置了
morphology=stem\u en
,并且搜索本身在具有相同词干的单词上运行良好。有没有办法得到带有词干的单词的列表?

我能想到的唯一方法是获取indexer的输出,然后通过BuildKeywords API运行它,以获得词干计数。可以在一个API调用中放入数千个关键字,因此它相当轻量级

你能具体说明根据你的建议应该做什么吗。我正在使用thinking_sphinx包装器和rails。这是否意味着我必须使用Java或PHP来创建该列表?因为我没有找到任何关于ruby库的参考资料。对不起,找到了。无论如何,我仍然对如何将索引器输出到这个方法感到困惑。我可以通过系统调用运行索引器-将它们写入临时文件,然后读取它。