Encoding 将ASCII字符编码为多字节在UTF-8中合法吗?

Encoding 将ASCII字符编码为多字节在UTF-8中合法吗?,encoding,utf-8,Encoding,Utf 8,在UTF-8中,大于127的码点用多个字节编码。例如,字符U+041F(100'0001'1111)编码为: 1101'0000 1001'1111 ^^^ ^^ 标记位确定前导字节和尾随字节,其他位是代码点的实际位 但是我们可以将代码点1编码为 1100'0000 1000'0001 当然,这是多余的,但它在UTF-8中合法吗 过长的UTF-8序列不被视为代码点的有效UTF-8表示形式。UTF-8解码器必须拒绝超长序列 维基百科引文: 原始RFC 2279规范:

在UTF-8中,大于127的码点用多个字节编码。例如,字符
U+041F(100'0001'1111)
编码为:

1101'0000 1001'1111
^^^       ^^
标记位确定前导字节和尾随字节,其他位是代码点的实际位

但是我们可以将代码点
1
编码为

1100'0000 1000'0001

当然,这是多余的,但它在UTF-8中合法吗

过长的UTF-8序列不被视为代码点的有效UTF-8表示形式。UTF-8解码器必须拒绝超长序列

维基百科引文:

原始RFC 2279规范: