Unicode 过长的表单/编码究竟是什么?

Unicode 过长的表单/编码究竟是什么?,unicode,utf-8,character-encoding,sequences,codepoint,Unicode,Utf 8,Character Encoding,Sequences,Codepoint,读了这本书,我一直在想超长的这个词。这一术语被多次使用,但本文并未提供其含义的定义或参考 我想知道是否有人能解释这个术语及其用途。这是一种代码点编码,需要的代码单位比需要的要多 例如,U+0020在UTF-8中由单字节0x20表示。如果您以正常方式解码两个字节0xc0 0xa0,您仍然会返回到U+0020,但这是一个无效的表示 有更多的信息,特别是关于表3.1B。UTF-8理论上允许字符的不同表示形式,这些字符也有较短的表示形式。例如,通过将MSB设置为零,可以将ASCII字符编码为两个字节。U

读了这本书,我一直在想超长的这个词。这一术语被多次使用,但本文并未提供其含义的定义或参考


我想知道是否有人能解释这个术语及其用途。

这是一种代码点编码,需要的代码单位比需要的要多

例如,U+0020在UTF-8中由单字节
0x20
表示。如果您以正常方式解码两个字节
0xc0 0xa0
,您仍然会返回到U+0020,但这是一个无效的表示


有更多的信息,特别是关于表3.1B。

UTF-8理论上允许字符的不同表示形式,这些字符也有较短的表示形式。例如,通过将MSB设置为零,可以将ASCII字符编码为两个字节。UTF-8规范明确禁止这样做。

@Computer:o.o我错过了什么双关语?你说的是福比特!