Internationalization Lucene.NET的独立于区域性的词干分析器/分析器

Internationalization Lucene.NET的独立于区域性的词干分析器/分析器,internationalization,lucene,nlp,lucene.net,Internationalization,Lucene,Nlp,Lucene.net,我们目前正在开发一款支持全文搜索的应用程序,Lucene.NET是我们的首选武器。预计一个应用程序将被来自不同国家的人使用,因此Lucene.NET必须能够在俄语、英语和其他文本中同样出色地搜索 是否有任何通用的、与文化无关的词干分析器和分析器来满足我们的需要?我知道最终我们必须使用特定于文化的词干分析器,但我们希望使用这种潜在的快速而肮脏的方法来启动和运行。没有独立于语言的词干分析器。事实上,词干分析是否能提高检索性能因语言而异。您所能做的最好的事情是对文档和查询进行语言猜测,然后将其分派到适

我们目前正在开发一款支持全文搜索的应用程序,Lucene.NET是我们的首选武器。预计一个应用程序将被来自不同国家的人使用,因此Lucene.NET必须能够在俄语、英语和其他文本中同样出色地搜索


是否有任何通用的、与文化无关的词干分析器和分析器来满足我们的需要?我知道最终我们必须使用特定于文化的词干分析器,但我们希望使用这种潜在的快速而肮脏的方法来启动和运行。

没有独立于语言的词干分析器。事实上,词干分析是否能提高检索性能因语言而异。您所能做的最好的事情是对文档和查询进行语言猜测,然后将其分派到适当的分析器/词干分析器


但是,对短查询进行语言猜测是很难的(就像最先进的技术一样,不是快速的“脏”)。如果您的查询很短,您可能希望在查询中使用一个简单的空白分析器,而不使用任何词干。

考虑到英语和俄语的拼写、语法和字符集有很大的不同,任何尝试同时使用这两种语言的词干分析器都可能非常大或性能不佳(很可能两者都有)

最好对每种语言使用词干分析器,并根据UI线索(用于查询的语言)或显式选择选择要使用的词干分析器

话虽如此,任何俄语文本都不可能正确匹配英语搜索词,反之亦然

这听起来像是一个多做一点业务分析比编写代码更有帮助的案例