Indexing 斯芬克斯能用词法计算索引中的所有单词吗?

Indexing 斯芬克斯能用词法计算索引中的所有单词吗?,indexing,sphinx,Indexing,Sphinx,我想给斯芬克斯索引中最常用的词打分。我找到的唯一一个方法是/usr/bin/indexer-c/etc/sphinxsearch/sphinx.conf indexname--buildfreqs--buildstops/home/user/test.txt 1000。但这种方法不考虑形态学。一个不同形式的词可以算作几个词。也许还有另一种方法可以计算所有索引单词的数量?如注释中所述,可以使用indextool--dumpdict,它应该给出索引中的单词数量。因为它是从索引中提取的,所以它已经按照

我想给斯芬克斯索引中最常用的词打分。我找到的唯一一个方法是
/usr/bin/indexer-c/etc/sphinxsearch/sphinx.conf indexname--buildfreqs--buildstops/home/user/test.txt 1000
。但这种方法不考虑形态学。一个不同形式的词可以算作几个词。也许还有另一种方法可以计算所有索引单词的数量?

如注释中所述,可以使用
indextool--dumpdict
,它应该给出索引中的单词数量。因为它是从索引中提取的,所以它已经按照charset_表、wordforms甚至词法进行了“规范化”


(但仅适用于
dict=keywords
索引)

您是否尝试过
indextool--dumpdict
?提供了一个dict=keywords索引,我认为这会有帮助。我试图转储dict,但它无论如何都不使用词法形式。你确定吗?我认为这是必须的。因为只有变形版本存储在索引中。它需要是morthed版本,以便关键字真正匹配。dumpdict正在从索引中转储实际词典!-刚刚检查了我的一个索引,它包含了
bridg,2738679411805033
——但这是“规范化”版本。这个词本身并不存在,真的。我不清楚输出中有什么。现在我明白了。真的很有效。谢谢写下答案,我会选择你最好的答案。