Zend framework Zend Lucene-标记化瑞典字符

Zend framework Zend Lucene-标记化瑞典字符,zend-framework,lucene,zend-search-lucene,zend-lucene,Zend Framework,Lucene,Zend Search Lucene,Zend Lucene,我使用Zend Lucene索引瑞典文本。问题是lucene在瑞典语charsåääö中标记单词。例如,“världens”一词在索引中变成了两个词“v”和“ldens” 有没有一种方法可以添加zend lucene应该接受的字符,而不是使用分析器标记的字符?。请参阅关于和关于的文档。我建议您只使用UTF-8分析仪。使用标记化而不是。请注意,这需要使用UTF-8支持编译PHP(与Perl兼容的正则表达式)库(如果使用与PHP捆绑的PCRE库,则为默认值,但如果使用共享库,则可能未启用)。对于UT

我使用Zend Lucene索引瑞典文本。问题是lucene在瑞典语charsåääö中标记单词。例如,“världens”一词在索引中变成了两个词“v”和“ldens”


有没有一种方法可以添加zend lucene应该接受的字符,而不是使用分析器标记的字符?

。请参阅关于和关于的文档。我建议您只使用UTF-8分析仪。

使用标记化而不是。请注意,这需要使用UTF-8支持编译PHP(与Perl兼容的正则表达式)库(如果使用与PHP捆绑的PCRE库,则为默认值,但如果使用共享库,则可能未启用)。对于UTF-8兼容分析器的不区分大小写版本,还需要启用mbstring扩展