Utf 8 维基百科上的汉字编码是什么？_Utf 8_Character Encoding_Cjk_Url Encoding

Utf 8 维基百科上的汉字编码是什么？

utf-8 character-encoding

Utf 8 维基百科上的汉字编码是什么？,utf-8,character-encoding,cjk,url-encoding,Utf 8,Character Encoding,Cjk,Url Encoding,我在看维基百科上的汉字编码，我很难弄清楚他们在用什么。例如“的" 编码为“%E7%9A%84”（）。这是三个字节，但是所描述的编码都不使用三个字节来表示汉字。例如，UTF-8使用两个字节我基本上是想把这三个字节和一个实际的字符匹配起来。对它的编码有什么建议吗 >>> c='\xe7\x9a\x84'.decode('utf8') >>> c u'\u7684' >>> print c 的尽管Unicode将其编码为16位，但utf8将其分解为3个字节。维基百科页面的标题包括： <

我在看维基百科上的汉字编码，我很难弄清楚他们在用什么。例如“的" 编码为“%E7%9A%84”（）。这是三个字节，但是所描述的编码都不使用三个字节来表示汉字。例如，UTF-8使用两个字节

我基本上是想把这三个字节和一个实际的字符匹配起来。对它的编码有什么建议吗


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的

尽管Unicode将其编码为16位，但utf8将其分解为3个字节。

维基百科页面的标题包括：

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

因此页面是UTF-8。

您给出的示例是一个

IRIs使用UTF8编码。UTF8实现unicode，在unicode中，每个字符都有一个代码点，即所有汉字的代码点都在0x4E00和0x9FFF（2字节）之间

但是UTF8并不是仅仅通过存储字符的代码点来编码字符（UTF32就是这样做的）。相反，它使用了一个，使所有中文表意文字都有2或3字节长。

该字符的UTF-8编码是

E7 9A 84

。@zerocrates，你应该发布答案并获得itThanks的分数，我假设UTF-8使用的编码与unicode相同。现在这是有意义的。@Laurent:不，因为（请跟我重复）Unicode不是一种编码。Unicode是一种表示文本的标准，而编码（实际上是几种编码）是标准的一部分。@Laurent:在UTF-32（这是一种编码）中，字符实际上是由其编码点编号编码的（即编码很简单），这一事实可能会让您感到困惑。但还有其他编码，UTF-32实际上并不经常使用。字符集具有误导性。它的意思是“编码”，而不是字符集，它们常常混淆在一起