什么';Unicode中文字符的完整范围是多少?

什么';Unicode中文字符的完整范围是多少?,unicode,cjk,Unicode,Cjk,U+4E00..U+9FFF是完整集合的一部分,但并非所有的您可以通过找到完整的列表(其中包括“中文、日文和韩文”字符) “”文件确实提到: 汉字块 Block Range Comment CJK Unified Ideographs 4E00-9FFF Common CJK Unified Ideographs Extension A 3400-4DBF Rare

U+4E00..U+9FFF
是完整集合的一部分,但并非所有的

您可以通过找到完整的列表(其中包括“中文、日文和韩文”字符)

“”文件确实提到:

汉字块

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
在Unicode标准的五个主要块中可以找到汉字,如 如表12-2所示

表12-2。汉字块

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
注:区块范围会随着时间的推移而变化:最新的是

另见维基百科:

  • (Unicode 10)

Unicode目前有74605个CJK字符。CJK字符不仅包括中文字符,还包括日文汉字、韩文汉字和越南语字符。一些CJK字符是而不是汉字

1) 来自的20941个字符。 代码点U+4E00至U+9FCC

  • 2) 来自的6582个字符。 代码点。Unicode 3.0(1999年)

    3) 中的42711个字符。 代码点U+20000至U+2A6D6。Unicode 3.1(2001年)

  • 3) 4149个字符。 代码点。Unicode 5.2(2009年)

    4) 源代码中的222个字符。 代码点。Unicode 6.0(2010年)

    5) CJKUI外部E块。


    如果以上所说的还不够意大利面,那就看一看。玩得开心=)

    中文字符的确切范围是
    [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]

  • CJK部首补遗是一个Unicode块,包含替代, 通常是康熙激进分子的位置形式。它们被用作标题 词典索引和其他由 彻底中风

  • Kanbun是一个Unicode块,包含在 日文版文言文文本,表示阅读顺序

  • CJK Unified Ideographs Extension-A是一个包含稀有字符的Unicode块 汉字

  • CJK统一表意文字是一个Unicode块,包含最常见的 现代汉语和日语中使用的CJK表意文字

  • CJK兼容表意文字是为包含汉字而创建的Unicode块 在其他系统的多个位置编码的字符 除CJK统一编码外,还建立了字符编码 表意文字分配,以保持往返兼容性 在Unicode和那些编码之间


    有关详细信息,请参阅,其他答案中提供了扩展

    其他答案给出的Unicode代码块肯定涵盖了大部分中文Unicode字符,但也可以查看一些其他代码块

    CJK_UNIFIED_IDEOGRAPHS
    CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
    CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
    CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
    CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
    CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
    CJK_COMPATIBILITY
    CJK_COMPATIBILITY_FORMS
    CJK_COMPATIBILITY_IDEOGRAPHS
    CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
    CJK_RADICALS_SUPPLEMENT
    CJK_STROKES
    CJK_SYMBOLS_AND_PUNCTUATION
    ENCLOSED_CJK_LETTERS_AND_MONTHS
    ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
    KANGXI_RADICALS
    IDEOGRAPHIC_DESCRIPTION_CHARACTERS
    
    请参阅我的详细讨论。并且便于浏览Unicode。

    Unicode 11.0.0版

    在Unicode中,中文、日文和韩文(CJK)脚本具有共同的背景,统称为CJK字符

    这些范围通常包含未分配或保留的代码点(例如U+2E9A,U+2EF4-2EFF)

    汉字
    • 在CJK统一表意文字块中,我注意到许多答案使用上界9FCC,但U+9FCD(鿍) 确实是一个汉字。并且这个块中的所有字符都是汉字(也用于日语或韩语等)
    • CJK统一表意文字Ext中的大多数字符(除Ext F外,Ext F中只有17%为汉字)为繁体汉字,在中国很少使用
    • ○是零的汉字形式,至今仍在使用
    因此,范围是

    [0x3007,0x3007],[0x3400,0x4DBF],[0x4E00,0x9FEF],[0x20000,0x2EBF]

    CJK字符,但从未在中文中使用 它们是常见的,仅用于兼容性

    几乎不可能在任何中国书籍、文章、著作等中看到它们

    这里的所有字符都有一个对应的字形相同的汉字, 比如金(U+F90A)和金(U+91D1),它们是相同的图示符

     F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
    2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
    
    CJK相关符号
    • 某些块(如Hangul兼容Jamo)被排除在外,因为 与中国人没有任何关系
    • 康熙部首不是汉字,它们是汉字的图形成分,专门用来表示部首, .例如。⼻(U+2F3B)和彳(U+5F73),⻜(U+2EDC)和飞 (U+98DE)
    汉语中出现的其他常用标点符号 这是一个广泛的范围,一些标点符号可能永远不会被使用,一些标点符号,如
    …“
    在中文中使用得太多了

    0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
    2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
    ……
    
    还有许多与中文相关的符号,如易经卦或汉字,但无论如何这都是离题的。我用CJK书写非汉字是为了更好地解释汉字是什么。上述范围几乎涵盖了中文书写中出现的所有字符,数学和其他专业符号除外n

    补充的 CJK符号和标点符号

     、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
    
    半幅和全幅表格

    !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
    
    参考
  • (中文) 语言,请注意右侧栏)
  • (注意下表)

  • 总而言之,这听起来像是:

    var blocks = [
      [0x3400, 0x4DB5],
      [0x4E00, 0x62FF],
      [0x6300, 0x77FF],
      [0x7800, 0x8CFF],
      [0x8D00, 0x9FCC],
      [0x2e80, 0x2fd5],
      [0x3190, 0x319f],
      [0x3400, 0x4DBF],
      [0x4E00, 0x9FCC],
      [0xF900, 0xFAAD],
      [0x20000, 0x215FF],
      [0x21600, 0x230FF],
      [0x23100, 0x245FF],
      [0x24600, 0x260FF],
      [0x26100, 0x275FF],
      [0x27600, 0x290FF],
      [0x29100, 0x2A6DF],
      [0x2A700, 0x2B734],
      [0x2B740, 0x2B81D]
    ]
    

    您可能还希望包括U+AC00–U+D7AF(韩语音节)。@Flimm:Hangul不是中国标准的一部分;Hangul是韩语。韩语确实使用汉字(“汉字”),但很少也仅用于一些传统事物(如姓氏、纪念碑、地方……)它不能用韩语转录。OP特别询问了汉语,所以回复者没有必要包括韩语。:-)列表似乎没有包括标点符号(“.”)。@MichałWoliński range是3000-303FI了解到CJK统一表意文字扩展名A是从3400到4dbf,而不是3400到4dff。嗨,你能举一个例子吗
    var blocks = [
      [0x3400, 0x4DB5],
      [0x4E00, 0x62FF],
      [0x6300, 0x77FF],
      [0x7800, 0x8CFF],
      [0x8D00, 0x9FCC],
      [0x2e80, 0x2fd5],
      [0x3190, 0x319f],
      [0x3400, 0x4DBF],
      [0x4E00, 0x9FCC],
      [0xF900, 0xFAAD],
      [0x20000, 0x215FF],
      [0x21600, 0x230FF],
      [0x23100, 0x245FF],
      [0x24600, 0x260FF],
      [0x26100, 0x275FF],
      [0x27600, 0x290FF],
      [0x29100, 0x2A6DF],
      [0x2A700, 0x2B734],
      [0x2B740, 0x2B81D]
    ]