什么';Unicode中文字符的完整范围是多少?
什么';Unicode中文字符的完整范围是多少?,unicode,cjk,Unicode,Cjk,U+4E00..U+9FFF是完整集合的一部分,但并非所有的您可以通过找到完整的列表(其中包括“中文、日文和韩文”字符) “”文件确实提到: 汉字块 Block Range Comment CJK Unified Ideographs 4E00-9FFF Common CJK Unified Ideographs Extension A 3400-4DBF Rare
U+4E00..U+9FFF
是完整集合的一部分,但并非所有的您可以通过找到完整的列表(其中包括“中文、日文和韩文”字符)
“”文件确实提到:
汉字块
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
在Unicode标准的五个主要块中可以找到汉字,如
如表12-2所示
表12-2。汉字块
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
注:区块范围会随着时间的推移而变化:最新的是
另见维基百科:
- (Unicode 10)
如果以上所说的还不够意大利面,那就看一看。玩得开心=)中文字符的确切范围是
[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
CJK部首补遗是一个Unicode块,包含替代,
通常是康熙激进分子的位置形式。它们被用作标题
词典索引和其他由
彻底中风
Kanbun是一个Unicode块,包含在
日文版文言文文本,表示阅读顺序
CJK Unified Ideographs Extension-A是一个包含稀有字符的Unicode块
汉字
CJK统一表意文字是一个Unicode块,包含最常见的
现代汉语和日语中使用的CJK表意文字
CJK兼容表意文字是为包含汉字而创建的Unicode块
在其他系统的多个位置编码的字符
除CJK统一编码外,还建立了字符编码
表意文字分配,以保持往返兼容性
在Unicode和那些编码之间
有关详细信息,请参阅,其他答案中提供了扩展 其他答案给出的Unicode代码块肯定涵盖了大部分中文Unicode字符,但也可以查看一些其他代码块
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
请参阅我的详细讨论。并且便于浏览Unicode。Unicode 11.0.0版
在Unicode中,中文、日文和韩文(CJK)脚本具有共同的背景,统称为CJK字符
这些范围通常包含未分配或保留的代码点(例如U+2E9A,U+2EF4-2EFF)
汉字
- 在CJK统一表意文字块中,我注意到许多答案使用上界9FCC,但U+9FCD(鿍) 确实是一个汉字。并且这个块中的所有字符都是汉字(也用于日语或韩语等)
- CJK统一表意文字Ext中的大多数字符(除Ext F外,Ext F中只有17%为汉字)为繁体汉字,在中国很少使用
- ○是零的汉字形式,至今仍在使用
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
CJK相关符号
- 某些块(如Hangul兼容Jamo)被排除在外,因为 与中国人没有任何关系
- 康熙部首不是汉字,它们是汉字的图形成分,专门用来表示部首, .例如。⼻(U+2F3B)和彳(U+5F73),⻜(U+2EDC)和飞 (U+98DE)
…“
在中文中使用得太多了
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
还有许多与中文相关的符号,如易经卦或汉字,但无论如何这都是离题的。我用CJK书写非汉字是为了更好地解释汉字是什么。上述范围几乎涵盖了中文书写中出现的所有字符,数学和其他专业符号除外n
补充的
CJK符号和标点符号
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
半幅和全幅表格
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
参考
总而言之,这听起来像是:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]
您可能还希望包括U+AC00–U+D7AF(韩语音节)。@Flimm:Hangul不是中国标准的一部分;Hangul是韩语。韩语确实使用汉字(“汉字”),但很少也仅用于一些传统事物(如姓氏、纪念碑、地方……)它不能用韩语转录。OP特别询问了汉语,所以回复者没有必要包括韩语。:-)列表似乎没有包括标点符号(“.”)。@MichałWoliński range是3000-303FI了解到CJK统一表意文字扩展名A是从3400到4dbf,而不是3400到4dff。嗨,你能举一个例子吗
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]