Unicode组合和分解形式
我知道某些角色有组合和分解的变体。我也理解应用程序应该是一致的,并且在与第三方合作时使用一种或另一种,并面临挑战 我不太明白的是: -为什么这两种形式存在 -在实现一个简单的后端数据库时,我应该选择哪一个 似乎大多数人都在使用组合表单(Windows、SMB)。另一方面,HFS+上的MacOSX使用的是分解形式 例如,当使用合成和分解重音法语e(é)时,它们在屏幕上看起来相同,但搜索可能不会返回结果,排序可能无法按预期工作。我倾向于采用组合形式,但在我看来,法语和法语(我知道这不是一个好例子)在结果集中不会“彼此接近”,也许他们应该如此 我不知道Lucene在做什么。。。 对我的用例有什么建议 更新日期:2015-02-19 问题是应该使用哪种形式的NFC或NFD在后端数据库中持久化字符串、文件名等? 此外,我正在为Windows、Linux和MacOSX实现VFS,因此返回文件系统的一致视图是至关重要的。 从表面上看: Mac喜欢接收分解形式的文件名,因此必须对该平台进行规范化Unicode组合和分解形式,unicode,Unicode,我知道某些角色有组合和分解的变体。我也理解应用程序应该是一致的,并且在与第三方合作时使用一种或另一种,并面临挑战 我不太明白的是: -为什么这两种形式存在 -在实现一个简单的后端数据库时,我应该选择哪一个 似乎大多数人都在使用组合表单(Windows、SMB)。另一方面,HFS+上的MacOSX使用的是分解形式 例如,当使用合成和分解重音法语e(é)时,它们在屏幕上看起来相同,但搜索可能不会返回结果,排序可能无法按预期工作。我倾向于采用组合形式,但在我看来,法语和法语(我知道这不是一个好例子)在
ICUFoldingFilter
作为一个一般性的问题,这是一个过于宽泛的问题,也是一个很大程度上基于观点的问题。关于您的用例,您并没有实际描述它。即使详细描述了预期的数据处理和其中使用的工具,我恐怕这也会偏离主题。显而易见的谷歌搜索覆盖了很多这方面的内容。也许还可以读书。TR#15包含两次“推荐”这个词,两次都是NFC,但是如果你关心eénear等价性,分解可能是一个更好的选择。非常感谢。