Indexing 斯芬克斯能用词法计算索引中的所有单词吗？_Indexing_Sphinx

Indexing 斯芬克斯能用词法计算索引中的所有单词吗？

indexing sphinx

Indexing 斯芬克斯能用词法计算索引中的所有单词吗？,indexing,sphinx,Indexing,Sphinx,我想给斯芬克斯索引中最常用的词打分。我找到的唯一一个方法是/usr/bin/indexer-c/etc/sphinxsearch/sphinx.conf indexname--buildfreqs--buildstops/home/user/test.txt 1000。但这种方法不考虑形态学。一个不同形式的词可以算作几个词。也许还有另一种方法可以计算所有索引单词的数量？如注释中所述，可以使用indextool--dumpdict，它应该给出索引中的单词数量。因为它是从索引中提取的，所以它已经按照

我想给斯芬克斯索引中最常用的词打分。我找到的唯一一个方法是

/usr/bin/indexer-c/etc/sphinxsearch/sphinx.conf indexname--buildfreqs--buildstops/home/user/test.txt 1000

。但这种方法不考虑形态学。一个不同形式的词可以算作几个词。也许还有另一种方法可以计算所有索引单词的数量？

如注释中所述，可以使用

indextool--dumpdict

，它应该给出索引中的单词数量。因为它是从索引中提取的，所以它已经按照charset_表、wordforms甚至词法进行了“规范化”

（但仅适用于

dict=keywords

索引）

您是否尝试过

indextool--dumpdict

？提供了一个dict=keywords索引，我认为这会有帮助。我试图转储dict，但它无论如何都不使用词法形式。你确定吗？我认为这是必须的。因为只有变形版本存储在索引中。它需要是morthed版本，以便关键字真正匹配。dumpdict正在从索引中转储实际词典！-刚刚检查了我的一个索引，它包含了

bridg，2738679411805033

——但这是“规范化”版本。这个词本身并不存在，真的。我不清楚输出中有什么。现在我明白了。真的很有效。谢谢写下答案，我会选择你最好的答案。