Character encoding 什么';“s”是正确的技术术语;“高ascii”;角色?

Character encoding 什么';“s”是正确的技术术语;“高ascii”;角色?,character-encoding,terminology,ascii,character,extended-ascii,Character Encoding,Terminology,Ascii,Character,Extended Ascii,“高ascii”或“扩展ascii”字符在技术上的正确表示方式是什么?我不仅仅是指128-255的范围,而是指超出0-127范围的任何字符 它们通常被称为变音符号、重音字母,有时被随意称为“国家”或非英语字符,但这些名称要么不精确,要么只包含可能的字符的子集 程序员会立即识别出什么正确、准确的术语?在与非技术观众交谈时,最好使用什么英语术语?非ASCII Unicode字符。我会使用“非ASCII字符”“扩展ASCII”这个术语,意思是“超出原始0-127的字符” Unicode是一组可能的扩展

“高ascii”或“扩展ascii”字符在技术上的正确表示方式是什么?我不仅仅是指128-255的范围,而是指超出0-127范围的任何字符

它们通常被称为变音符号、重音字母,有时被随意称为“国家”或非英语字符,但这些名称要么不精确,要么只包含可能的字符的子集


程序员会立即识别出什么正确、准确的术语?在与非技术观众交谈时,最好使用什么英语术语?

非ASCII Unicode字符。

我会使用“非ASCII字符”

“扩展ASCII”这个术语,意思是“超出原始0-127的字符”

Unicode是一组可能的扩展ASCII字符,而且非常非常大


UTF-8是一种表示与原始ASCII向后兼容的Unicode字符的方法。

您可以创造一个术语,如“trans-ASCII”、“supra-ASCII”、“ultra-ASCII”等。实际上,“meta-ASCII”会更好,因为它暗指元位。

127以上的ASCII字符代码没有定义。许多不同的设备和软件供应商为128-255的值开发了自己的字符集。有些人选择图形符号,有的选择重音字符,有的选择其他字符

Unicode试图制作一套通用的字符代码,其中包括大多数语言中使用的字符。这不仅包括传统的西方字母,还包括西里尔语、阿拉伯语、希腊语,甚至包括大量来自汉语、日语和韩语的字符,以及许多其他现代和古代语言

Unicode有几种实现。最受欢迎的if UTF-8之一。流行的一个主要原因是它向后兼容ASCII,字符代码0到127对于ASCII和UTF-8都是相同的


这意味着最好说ASCII是UTF-8的子集。代码128及以上的字符不是ASCII。它们可以是UTF-8(或其他Unicode),也可以是硬件或软件供应商定制的实现

如果你说“高ASCII”,根据定义,你是在128-255十进制范围内。ASCII本身被定义为一个单字节(实际上是7位)字符表示;后来使用高位来允许非英语字符出现,并产生了定义由特定值表示的特定字符的代码页。任何多字节(>255个十进制值)都不是ASCII。

不表示ASCII字符的位序列不一定是Unicode字符

根据您使用的字符编码,它可以是:

  • 无效的位序列
  • Unicode字符
  • ISO-8859-x字符
  • Microsoft 1252字符
  • 其他字符编码中的字符
  • 错误、二进制数据等
符合所有这些情况的一个定义是:

  • 不是ASCII字符

非常迂腐的是,即使是“非ASCII字符”也不能完全适合所有这些情况,因为有时超出此范围的位序列可能只是一个无效的位序列,而根本不是一个字符。

从在线资源中获取单词(),因为我发现写和回答非常有用和合适

起初只包括大写字母和数字,但在1967年增加了小写字母和一些控制字符,形成了所谓的US-ASCII,即字符0到127。 因此,1967年,这组只有128个字符的字符作为标准字符发布,包含了所有你需要用英语书写的内容

1981年,IBM开发了一种8位ASCII码的扩展,称为“代码页437”,在这个版本中,一些过时的控制字符被替换为图形字符。还增加了128个字符,包括新的符号、符号、图形和拉丁字母,以及用其他语言书写文本所需的所有标点符号和字符,​比如西班牙语。 以这种方式添加了从128到255的ASCII字符

IBM在其5150型(被称为“IBM-PC”)的硬件中包括对该代码页的支持,该型号被认为是第一台个人计算机。
这种型号的操作系统“MS-DOS”也使用这种扩展的ASCII码。

我的想法是“扩展的ASCII码”只指128-255。任何不能在该范围内表达的内容都不再是真正的ascii:)另外,请注意(来自维基百科)术语“扩展ascii”的使用受到了批评,因为它可能被误认为是ascii标准的扩展。@thomasrutter;如果你想在编辑中修改我的答案那么多,请发布一个不同的答案,或者至少在这里留下评论?天啊,我只是想帮你。我把所有的东西都退回去了,这是不正确的。Unicode与ASCII无关,只是前127个代码点向后兼容。这就是问题所在。所有没有ASCII等价物的Unicode字符。@Dervin:正如127以上的值与ASCII无关。ASCII范围之外的字符不是Unicode字符。它是ASCII范围之外的字符。根据您使用的字符编码,它可能是:无效的位序列;Unicode字符、ISO-8859-x字符、Microsoft 1252字符或其他字符编码中的字符。UTF不是Unicode的“实现”。它们将Unicode文本编码为ByTestRing。Unicode文本表示为一个数字序列(不是
int
s或
long
s,数字),UTF是将每个数字转换为一个或多个字节序列的方法。Jim,谢谢,但我或多或少知道这些是什么:)我只是在寻找一个精确的名称。我喜欢“trans-ascii”一词