\u{…}符号在UNICODE中是什么意思?为什么在CLDR项目中只有一些字符显示为这样?

\u{…}符号在UNICODE中是什么意思?为什么在CLDR项目中只有一些字符显示为这样?,unicode,Unicode,在中,您将找到每种语言使用最多的字符。为什么某些语言中的某些字符显示在\u{…}符号下? 我认为括号中的是字符的十六进制代码,但我不明白他们为什么只对某些字符进行编码。似乎所有没有明确定义的独立外观或不打算用作独立字符的代码点都用这种符号表示 例如,角色中存在{ਫ\u0A3C}。U+0A3C是一个组合码点,它修改前面的一个。括在花括号{}中的字符序列是有向图、三角图,…在给定语言中被视为一个独立的字母,例如,在字母表中有自己的位置 捷克语; 匈牙利字母; kkj Kako语言中更复杂的有向图示例

在中,您将找到每种语言使用最多的字符。为什么某些语言中的某些字符显示在\u{…}符号下?
我认为括号中的是字符的十六进制代码,但我不明白他们为什么只对某些字符进行编码。

似乎所有没有明确定义的独立外观或不打算用作独立字符的代码点都用这种符号表示

例如,角色中存在{ਫ\u0A3C}。U+0A3C是一个组合码点,它修改前面的一个。

括在花括号{}中的字符序列是有向图、三角图,…在给定语言中被视为一个独立的字母,例如,在字母表中有自己的位置

捷克语; 匈牙利字母; kkj Kako语言中更复杂的有向图示例显示了以下Python代码片段: >>>“kkj=[a a a{0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0! >>>打印kkj (a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a! >>> 例如,{a\u0327}呈现为{a̧},即类似于拉丁文小写字母a,并结合了没有Unicode等价物的Cedilla。反例:

ņU+0146拉丁文小写字母N随以Cedilla,随以分解004E 0327:

编辑: 以unicode文字表示的字符\uxxx=具有16位十六进制值xxxx的字符是不可渲染的或至少是难以渲染的。下面的Python脚本显示了其中一些:L-Left\u到右,R-Right\u到左,NSM-nonspace\u标记,BN-Boundary\u中性:

结果:。\SO\63659122.py


我也考虑过这种可能性。但是,请注意,有时带有符号\u{…}的字符单独出现,例如在第五行,即语言pa中。我不明白为什么。请看。它也是一个组合字符,意味着它的意思是修改其他东西。我不能说我是一个足够的专家来理解为什么那是一种语言中的字符,这是语言学家的问题。我也考虑过这种可能性。但是,请注意,有时带有符号\u{…}的字符单独出现,例如在第五行,即语言pa中。我不明白为什么。
>>> import unicodedata
>>> print( 'ņ', unicodedata.normalize('NFC','{n\u0327}'))
ņ {ņ}
# -*- coding: utf-8 -*-

import unicodedata
pa = 'ੱੰ਼੍ੁੂੇੈੋੌ'
pa = '\u0327 \u0A71 \u0A70 \u0A3C ੦ ੧ ੨ ੩ ੪ ੫ ੬ ੭ ੮ ੯ ੴ ੳ ਉ ਊ ਓ ਅ ਆ ਐ ਔ ੲ ਇ ਈ ਏ ਸ {ਸ\u0A3C} ਹ ਕ ਖ {ਖ\u0A3C} ਗ {ਗ\u0A3C} ਘ ਙ ਚ ਛ ਜ {ਜ\u0A3C} ਝ ਞ ਟ ਠ ਡ ਢ ਣ ਤ ਥ ਦ ਧ ਨ ਪ ਫ {ਫ\u0A3C} ਬ ਭ ਮ ਯ ਰ ਲ ਵ ੜ \u0A4D ਾ ਿ ੀ \u0A41 \u0A42 \u0A47 \u0A48 \u0A4B \u0A4C'
pa = '\u0300 \u0301 \u0302 \u1DC6 \u1DC7 \u0A71 \u0A70 \u0A3C \u0A4D \u0A41 \u0A42 \u0A47 \u0A48 \u0A4B \u0A4C \u05B7 \u05B8 \u05BF \u200C \u200D \u200E \u200F \u064B \u064C \u064E \u064F \u0650'
# above examples from ·kkj· ·bas· ·pa· ·yi· ·kn· ·ur· ·mzn·
print( pa )
for chr in pa:
  if chr != ' ':
    if chr == '{' or chr == '}':
      print( chr )
    else: 
      print( '\\u%04x' % ord(chr), chr,
        unicodedata.category(chr),
        unicodedata.bidirectional(chr) + '\t',
        str( unicodedata.combining(chr)) + '\t',
        unicodedata.name(chr, '?') )
̀ ́ ̂ ᷆ ᷇ ੱ ੰ ਼ ੍ ੁ ੂ ੇ ੈ ੋ ੌ ַ ָ ֿ ‌ ‍ ‎ ‏ ً ٌ َ ُ ِ
\u0300 ̀ Mn NSM  230     COMBINING GRAVE ACCENT
\u0301 ́ Mn NSM  230     COMBINING ACUTE ACCENT
\u0302 ̂ Mn NSM  230     COMBINING CIRCUMFLEX ACCENT
\u1dc6 ᷆ Mn NSM  230     COMBINING MACRON-GRAVE
\u1dc7 ᷇ Mn NSM  230     COMBINING ACUTE-MACRON
\u0a71 ੱ Mn NSM  0       GURMUKHI ADDAK
\u0a70 ੰ Mn NSM  0       GURMUKHI TIPPI
\u0a3c ਼ Mn NSM  7       GURMUKHI SIGN NUKTA
\u0a4d ੍ Mn NSM  9       GURMUKHI SIGN VIRAMA
\u0a41 ੁ Mn NSM  0       GURMUKHI VOWEL SIGN U
\u0a42 ੂ Mn NSM  0       GURMUKHI VOWEL SIGN UU
\u0a47 ੇ Mn NSM  0       GURMUKHI VOWEL SIGN EE
\u0a48 ੈ Mn NSM  0       GURMUKHI VOWEL SIGN AI
\u0a4b ੋ Mn NSM  0       GURMUKHI VOWEL SIGN OO
\u0a4c ੌ Mn NSM  0       GURMUKHI VOWEL SIGN AU
\u05b7 ַ Mn NSM  17      HEBREW POINT PATAH
\u05b8 ָ Mn NSM  18      HEBREW POINT QAMATS
\u05bf ֿ Mn NSM  23      HEBREW POINT RAFE
\u200c ‌ Cf BN   0       ZERO WIDTH NON-JOINER
\u200d ‍ Cf BN   0       ZERO WIDTH JOINER
\u200e ‎ Cf L    0       LEFT-TO-RIGHT MARK
\u200f ‏ Cf R    0       RIGHT-TO-LEFT MARK
\u064b ً Mn NSM  27      ARABIC FATHATAN
\u064c ٌ Mn NSM  28      ARABIC DAMMATAN
\u064e َ Mn NSM  30      ARABIC FATHA
\u064f ُ Mn NSM  31      ARABIC DAMMA
\u0650 ِ Mn NSM  32      ARABIC KASRA