Character encoding 什么'；“s”是正确的技术术语；“高ascii”；角色？_Character Encoding_Terminology_Ascii_Character_Extended Ascii

Character encoding 什么'；“s”是正确的技术术语；“高ascii”；角色？

character-encoding

Character encoding 什么'；“s”是正确的技术术语；“高ascii”；角色？,character-encoding,terminology,ascii,character,extended-ascii,Character Encoding,Terminology,Ascii,Character,Extended Ascii,“高ascii”或“扩展ascii”字符在技术上的正确表示方式是什么？我不仅仅是指128-255的范围，而是指超出0-127范围的任何字符它们通常被称为变音符号、重音字母，有时被随意称为“国家”或非英语字符，但这些名称要么不精确，要么只包含可能的字符的子集程序员会立即识别出什么正确、准确的术语？在与非技术观众交谈时，最好使用什么英语术语？非ASCII Unicode字符。我会使用“非ASCII字符”“扩展ASCII”这个术语，意思是“超出原始0-127的字符” Unicode是一组可能的扩展

“高ascii”或“扩展ascii”字符在技术上的正确表示方式是什么？我不仅仅是指128-255的范围，而是指超出0-127范围的任何字符

它们通常被称为变音符号、重音字母，有时被随意称为“国家”或非英语字符，但这些名称要么不精确，要么只包含可能的字符的子集

程序员会立即识别出什么正确、准确的术语？在与非技术观众交谈时，最好使用什么英语术语？

非ASCII Unicode字符。

我会使用“非ASCII字符”

“扩展ASCII”这个术语，意思是“超出原始0-127的字符”

Unicode是一组可能的扩展ASCII字符，而且非常非常大

UTF-8是一种表示与原始ASCII向后兼容的Unicode字符的方法。

您可以创造一个术语，如“trans-ASCII”、“supra-ASCII”、“ultra-ASCII”等。实际上，“meta-ASCII”会更好，因为它暗指元位。

127以上的ASCII字符代码没有定义。许多不同的设备和软件供应商为128-255的值开发了自己的字符集。有些人选择图形符号，有的选择重音字符，有的选择其他字符

Unicode试图制作一套通用的字符代码，其中包括大多数语言中使用的字符。这不仅包括传统的西方字母，还包括西里尔语、阿拉伯语、希腊语，甚至包括大量来自汉语、日语和韩语的字符，以及许多其他现代和古代语言

Unicode有几种实现。最受欢迎的if UTF-8之一。流行的一个主要原因是它向后兼容ASCII，字符代码0到127对于ASCII和UTF-8都是相同的

这意味着最好说ASCII是UTF-8的子集。代码128及以上的字符不是ASCII。它们可以是UTF-8（或其他Unicode），也可以是硬件或软件供应商定制的实现

如果你说“高ASCII”，根据定义，你是在128-255十进制范围内。ASCII本身被定义为一个单字节（实际上是7位）字符表示；后来使用高位来允许非英语字符出现，并产生了定义由特定值表示的特定字符的代码页。任何多字节（>255个十进制值）都不是ASCII。

不表示ASCII字符的位序列不一定是Unicode字符

根据您使用的字符编码，它可以是：

无效的位序列
Unicode字符
ISO-8859-x字符
Microsoft 1252字符
其他字符编码中的字符
错误、二进制数据等

符合所有这些情况的一个定义是：

不是ASCII字符

非常迂腐的是，即使是“非ASCII字符”也不能完全适合所有这些情况，因为有时超出此范围的位序列可能只是一个无效的位序列，而根本不是一个字符。

从在线资源中获取单词（），因为我发现写和回答非常有用和合适

起初只包括大写字母和数字，但在1967年增加了小写字母和一些控制字符，形成了所谓的US-ASCII，即字符0到127。因此，1967年，这组只有128个字符的字符作为标准字符发布，包含了所有你需要用英语书写的内容

1981年，IBM开发了一种8位ASCII码的扩展，称为“代码页437”，在这个版本中，一些过时的控制字符被替换为图形字符。还增加了128个字符，包括新的符号、符号、图形和拉丁字母，以及用其他语言书写文本所需的所有标点符号和字符，比如西班牙语。以这种方式添加了从128到255的ASCII字符

IBM在其5150型（被称为“IBM-PC”）的硬件中包括对该代码页的支持，该型号被认为是第一台个人计算机。

这种型号的操作系统“MS-DOS”也使用这种扩展的ASCII码。

我的想法是“扩展的ASCII码”只指128-255。任何不能在该范围内表达的内容都不再是真正的ascii：）另外，请注意（来自维基百科）术语“扩展ascii”的使用受到了批评，因为它可能被误认为是ascii标准的扩展。@thomasrutter；如果你想在编辑中修改我的答案那么多，请发布一个不同的答案，或者至少在这里留下评论？天啊，我只是想帮你。我把所有的东西都退回去了，这是不正确的。Unicode与ASCII无关，只是前127个代码点向后兼容。这就是问题所在。所有没有ASCII等价物的Unicode字符。@Dervin：正如127以上的值与ASCII无关。ASCII范围之外的字符不是Unicode字符。它是ASCII范围之外的字符。根据您使用的字符编码，它可能是：无效的位序列；Unicode字符、ISO-8859-x字符、Microsoft 1252字符或其他字符编码中的字符。UTF不是Unicode的“实现”。它们将Unicode文本编码为ByTestRing。Unicode文本表示为一个数字序列（不是

int

s或

long

s，数字），UTF是将每个数字转换为一个或多个字节序列的方法。Jim，谢谢，但我或多或少知道这些是什么：）我只是在寻找一个精确的名称。我喜欢“trans-ascii”一词