Unicode 是否存在不使用';你不尊重ASCII码吗?

Unicode 是否存在不使用';你不尊重ASCII码吗?,unicode,utf-8,character-encoding,character-set,Unicode,Utf 8,Character Encoding,Character Set,据我所知,字符编码将位映射为整数,字符集将整数映射为字符 所以在Unicode字符集中有一个电话字符。它使用整数9742表示,更常见的是使用十六进制表示为260E。然后使用UTF-8将其保存到文件中,UTF-8将整数9742转换为10011000001110。如果我错了,请纠正我 昨天我创建了一个使用Unicode字符集和UTF-8编码的文本文件,并将其保存到我的桌面上。然后,我在文本编辑器中重新打开该文件,并开始手动切换角色集以获得乐趣。不出所料,出现了问题和奇怪的字符开始显示!我注意到只有一

据我所知,字符编码将位映射为整数,字符集将整数映射为字符

所以在Unicode字符集中有一个电话字符。它使用整数9742表示,更常见的是使用十六进制表示为260E。然后使用UTF-8将其保存到文件中,UTF-8将整数9742转换为10011000001110。如果我错了,请纠正我

昨天我创建了一个使用Unicode字符集和UTF-8编码的文本文件,并将其保存到我的桌面上。然后,我在文本编辑器中重新打开该文件,并开始手动切换角色集以获得乐趣。不出所料,出现了问题和奇怪的字符开始显示!我注意到只有一些角色被歪曲了。这让我想,为什么只有一些角色会崩溃?为什么不是全部

有人告诉我,这些字符超出了原始ASCII规范。经过深思熟虑,这似乎是有道理的,因为只有非美国角色打破了这一点。我被告知,因为所有字符集都使用ASCII字符集,设置为前128个字符,所以它们将保持不中断,而127以上的字符才中断。如果我错了,请纠正我

最后,我开始思考。是否有不符合ASCII的字符集?如果是这样的话,它们叫什么?它们是用来干什么的?

根据我在评论中的发现,我能够回答我自己的问题。谢谢大家的评论


是的,有一对;和。

首先是UTF-16,其中每个BMP码点是两个字节,而不是一个字节。然后EBCDIC…谷歌“EBCDIC”。另请参见。顺便说一句,UTF-8中的字符U+260E不是2字节,而是3:。UTF-16中有2个字节。另请参见。有一次,我遇到了一个作为电子邮件字符集的bug,它破坏了我的电子邮件解析器,因为它对
LF
使用
0x25
而不是
0xA
,但是在
0x00-0x7F
范围内,它还有一堆与ASCII不同的字符。EBCDIC最近出现过-很高兴您不必处理IBM大型机文件:)顺便问一下,答案是什么?许多字符集似乎“允许”较低字节范围内的ascii兼容。你的回答触及这一点了吗?文件头呢?还有什么可以分享的吗?