如何从XML Unicode字符数据库中提取Unicode规范化表?

如何从XML Unicode字符数据库中提取Unicode规范化表?,unicode,unicode-normalization,Unicode,Unicode Normalization,我正在编写一个脚本来创建包含unicode字符的表,用于大小写折叠等 我能够很好地提取这些表,但我正在努力找出使用哪些属性来获取规范化的代码点 在Unicode附录44中,我能找到的最接近的属性组是NF(C | D | KC | KD)QC,用于判断字符串是否已被规范化 而且它仍然没有列出实际构建表所需的值 我做错了什么 编辑:我正在编写一个C库来处理unicode,这不是一个简单的库,完成了,用python编写,我正在尝试编写我自己的规范化(技术上是合成/分解)函数 Edit2:分解属性是“d

我正在编写一个脚本来创建包含unicode字符的表,用于大小写折叠等

我能够很好地提取这些表,但我正在努力找出使用哪些属性来获取规范化的代码点

在Unicode附录44中,我能找到的最接近的属性组是NF(C | D | KC | KD)QC,用于判断字符串是否已被规范化

而且它仍然没有列出实际构建表所需的值

我做错了什么

编辑:我正在编写一个C库来处理unicode,这不是一个简单的库,完成了,用python编写,我正在尝试编写我自己的规范化(技术上是合成/分解)函数


Edit2:分解属性是“dm”,但是合成和可兼容变体呢?

ucdxml目录中的Unicode XML数据库没有权威性。我建议使用
ucd
目录中的权威文件。你需要

  • 中第5列的字段
  • 第3列中的字段,以及
  • 这篇作文不包含任何内容

如果尖括号中有一个分解类型,那么它是一个兼容性映射(NFKD),否则它是一个规范映射。组合是根据分解映射定义的。有关详细信息,请参阅Unicode标准的说明和。

您应该完全熟悉。它不仅回答了这些问题,还涵盖了为什么单独使用UCD是不够的。unicode标准(在前几章的其中一章中)有规范化的规则和算法(以及如何处理“未来”字符)