如何从XML Unicode字符数据库中提取Unicode规范化表？_Unicode_Unicode Normalization

如何从XML Unicode字符数据库中提取Unicode规范化表？

unicode

如何从XML Unicode字符数据库中提取Unicode规范化表？,unicode,unicode-normalization,Unicode,Unicode Normalization,我正在编写一个脚本来创建包含unicode字符的表，用于大小写折叠等我能够很好地提取这些表，但我正在努力找出使用哪些属性来获取规范化的代码点在Unicode附录44中，我能找到的最接近的属性组是NF（C | D | KC | KD）QC，用于判断字符串是否已被规范化而且它仍然没有列出实际构建表所需的值我做错了什么编辑：我正在编写一个C库来处理unicode，这不是一个简单的库，完成了，用python编写，我正在尝试编写我自己的规范化（技术上是合成/分解）函数 Edit2：分解属性是“d

我正在编写一个脚本来创建包含unicode字符的表，用于大小写折叠等

我能够很好地提取这些表，但我正在努力找出使用哪些属性来获取规范化的代码点

在Unicode附录44中，我能找到的最接近的属性组是NF（C | D | KC | KD）QC，用于判断字符串是否已被规范化

而且它仍然没有列出实际构建表所需的值

我做错了什么

编辑：我正在编写一个C库来处理unicode，这不是一个简单的库，完成了，用python编写，我正在尝试编写我自己的规范化（技术上是合成/分解）函数

Edit2：分解属性是“dm”，但是合成和可兼容变体呢？

ucdxml目录中的Unicode XML数据库没有权威性。我建议使用

ucd

目录中的权威文件。你需要

中第5列的字段
第3列中的字段，以及
这篇作文不包含任何内容

如果尖括号中有一个分解类型，那么它是一个兼容性映射（NFKD），否则它是一个规范映射。组合是根据分解映射定义的。有关详细信息，请参阅Unicode标准的说明和。

您应该完全熟悉。它不仅回答了这些问题，还涵盖了为什么单独使用UCD是不够的。unicode标准（在前几章的其中一章中）有规范化的规则和算法（以及如何处理“未来”字符）