Utf 8 维基百科上的汉字编码是什么?

Utf 8 维基百科上的汉字编码是什么?,utf-8,character-encoding,cjk,url-encoding,Utf 8,Character Encoding,Cjk,Url Encoding,我在看维基百科上的汉字编码,我很难弄清楚他们在用什么。例如“的" 编码为“%E7%9A%84”()。这是三个字节,但是所描述的编码都不使用三个字节来表示汉字。例如,UTF-8使用两个字节 我基本上是想把这三个字节和一个实际的字符匹配起来。对它的编码有什么建议吗 >>> c='\xe7\x9a\x84'.decode('utf8') >>> c u'\u7684' >>> print c 的 尽管Unicode将其编码为16位,但utf8将其分解为3个字节。维基百科页面的标题包括: <

我在看维基百科上的汉字编码,我很难弄清楚他们在用什么。例如“的" 编码为“%E7%9A%84”()。这是三个字节,但是所描述的编码都不使用三个字节来表示汉字。例如,UTF-8使用两个字节

我基本上是想把这三个字节和一个实际的字符匹配起来。对它的编码有什么建议吗


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的


尽管Unicode将其编码为16位,但utf8将其分解为3个字节。

维基百科页面的标题包括:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />


因此页面是UTF-8。

您给出的示例是一个

IRIs使用UTF8编码。UTF8实现unicode,在unicode中,每个字符都有一个代码点,即所有汉字的代码点都在0x4E00和0x9FFF(2字节)之间


但是UTF8并不是仅仅通过存储字符的代码点来编码字符(UTF32就是这样做的)。相反,它使用了一个,使所有中文表意文字都有2或3字节长。

该字符的UTF-8编码是
E7 9A 84
。@zerocrates,你应该发布答案并获得itThanks的分数,我假设UTF-8使用的编码与unicode相同。现在这是有意义的。@Laurent:不,因为(请跟我重复)Unicode不是一种编码。Unicode是一种表示文本的标准,而编码(实际上是几种编码)是标准的一部分。@Laurent:在UTF-32(这是一种编码)中,字符实际上是由其编码点编号编码的(即编码很简单),这一事实可能会让您感到困惑。但还有其他编码,UTF-32实际上并不经常使用。字符集具有误导性。它的意思是“编码”,而不是字符集,它们常常混淆在一起