Unicode ICU/CLDR/UCA支持哪些日文排序/排序顺序?

Unicode ICU/CLDR/UCA支持哪些日文排序/排序顺序?,unicode,localization,collation,cjk,cldr,Unicode,Localization,Collation,Cjk,Cldr,我相信日语有不止一种排序顺序,相当于英语中的字母顺序 我相信至少有一个是基于发音的(我认为假名历史上使用过两个顺序),还有一个是基于部首+笔划计数的。中文也有多个顺序,其中一个基于部首/笔划,但由于Unicode,同一个字符在中文和日文中的笔划计数可能不同 因为我相信Unicode中的排序顺序标准是用于数据的,而用于算法的是,参考实现是 实现通常落后于标准,事实证明,很难找到规范的来源 如果我用语言说明符ja设置了一个collator,我应该使用哪种排序顺序 如果有几个可用于日语,或者计划在某个

我相信日语有不止一种排序顺序,相当于英语中的字母顺序

我相信至少有一个是基于发音的(我认为假名历史上使用过两个顺序),还有一个是基于部首+笔划计数的。中文也有多个顺序,其中一个基于部首/笔划,但由于Unicode,同一个字符在中文和日文中的笔划计数可能不同

因为我相信Unicode中的排序顺序标准是用于数据的,而用于算法的是,参考实现是

实现通常落后于标准,事实证明,很难找到规范的来源

如果我用语言说明符
ja
设置了一个collator,我应该使用哪种排序顺序


如果有几个可用于日语,或者计划在某个时候提供,那么应该使用哪些说明符?例如,西班牙语的传统字母顺序的说明符是
es-u-co-trad

CLDR(因此ICU)提供的基本日语排序顺序基于以下中指定的排序顺序:

  • 假名按其名称排序(五十音) 订单(平假名在片假名之前)
  • 在JIS X 0208中,汉字按其顺序排序,即按其“”排序(并在所有假名之后)
还有一个
ja-u-co-unihan
排序规则,其中包括按笔划顺序对部首排序的规则(后面是上面的标准规则)。这仅在实际对部首排序时有用


例如,如果您需要更准确地对汉字进行排序,通过阅读汉字中使用的单词,您需要使用字典进行某种形态分析,以确定要使用哪些读物,然后在这些读物上应用Unicode排序算法。

汉字的问题已经解决。是的,我确信没有perfec考虑到障碍,我无法解决问题,但我仍然想知道有多少“我们能做到最好”解决方案是标准化的、命名的,以及每个解决方案的具体限制。感谢这些信息!我为Wiktionary提供了一个列表排序扩展,需要让那里的日本专家知道选项是什么,以及他们的首选排序顺序是否可以自动执行。对于未涵盖的CJKV字符,指定要执行什么操作根据JIS X 4061-1996,假设它不包括所有汉字?所有其他CJKV字符(“仅指定”6355)回退到其默认(代码点)顺序;紧跟假名和所有已排序的汉字。这大致是按部首和笔划数(但在考虑扩展块和兼容性块时,这种情况会出现故障).事实上,对于中文案例,我被告知在通过浏览器/DOM API实现CLDR默认排序后,排序错误。英文Wiktionary按拼音字母顺序对中文进行排序。我忘记了CLDR默认的顺序,可能是部首/笔划。我不知道是否可以传递任何参数以获得不同的中文排序或笔划德。