如何为不同的语言分配unicode?

如何为不同的语言分配unicode?,unicode,character-encoding,Unicode,Character Encoding,对我来说,这似乎是最令人困惑的问题 如何识别新字符的开头 如何分配代码点 让我们以汉字为例 分配给它们的代码点范围是什么 为什么会这样分配,有什么原因吗 编辑: 请用你自己的话来描述,不要引用 或者你能推荐一本系统地介绍Unicode的书吗?你认为这本书已经明确了它是最重要的。负责代码点分配。如果您需要分配新字符或代码页,可以在那里应用。有关示例,请参见。负责代码点分配。如果您需要分配新字符或代码页,可以在那里应用。有关示例,请参见。在此处查看可能有用的Unicode概述:在此处查看可能有用的U

对我来说,这似乎是最令人困惑的问题

如何识别新字符的开头

如何分配代码点

让我们以汉字为例

分配给它们的代码点范围是什么

为什么会这样分配,有什么原因吗

编辑: 请用你自己的话来描述,不要引用


或者你能推荐一本系统地介绍Unicode的书吗?你认为这本书已经明确了它是最重要的。

负责代码点分配。如果您需要分配新字符或代码页,可以在那里应用。有关示例,请参见。

负责代码点分配。如果您需要分配新字符或代码页,可以在那里应用。有关示例,请参见。

在此处查看可能有用的Unicode概述:

在此处查看可能有用的Unicode概述:

Unicode规范定义了Unicode的一般结构,包括为哪种字符分配的范围。

的Unicode规范定义了Unicode的一般结构,包括为哪种字符分配的范围。

最好说字符编码而不是代码页

字符编码是一种将某些字符映射到某些数据的方法,反之亦然

正如维基百科所说:

字符编码系统由一个代码组成,该代码将给定指令集中的每个字符与其他字符配对,例如自然数序列、八位字节或电脉冲,以便通过电信网络或计算机中的文本存储方便数据传输(通常是数字和/或文本)

最流行的字符编码是ASCII、UTF-16和UTF-8

ASCII码

计算机中广泛使用的第一个代码页。在ANSI中,每个字符只分配一个字节。所以ANSI可以有一个非常有限的字符集,英文字母,数字

正如我所说,ASCII在MS-DOS等旧操作系统中大量使用。但是ASCII并没有消亡,仍然在使用。当你有一个10个字符的txt文件,它是10个字节,你有一个ASCII文件

UTF-16

在UTF-16中,一个字符分配两个字节。所以我们可以在UTF-16中使用65536个不同的字符

Microsoft Windows在内部使用UTF-16

UTF-8

UTF-8是另一种常用的字符编码方式。它使用可变长度字节1字节到4字节作为字符。它还与ASCII兼容,因为ASCII字符使用1字节

大多数基于Unix的系统使用UTF-8

编程语言不依赖于代码页。也许编程语言的特定实现不支持像turboc这样的代码页++

您可以使用现代编程语言中的任何代码页。他们还有一些转换代码页的工具

有不同的Unicode版本,如Utf-7、Utf-8等,。。。你可以阅读他们的推荐!对于更正式的细节,最好说字符编码而不是代码页

字符编码是一种将某些字符映射到某些数据的方法,反之亦然

正如维基百科所说:

字符编码系统由一个代码组成,该代码将给定指令集中的每个字符与其他字符配对,例如自然数序列、八位字节或电脉冲,以便通过电信网络或计算机中的文本存储方便数据传输(通常是数字和/或文本)

最流行的字符编码是ASCII、UTF-16和UTF-8

ASCII码

计算机中广泛使用的第一个代码页。在ANSI中,每个字符只分配一个字节。所以ANSI可以有一个非常有限的字符集,英文字母,数字

正如我所说,ASCII在MS-DOS等旧操作系统中大量使用。但是ASCII并没有消亡,仍然在使用。当你有一个10个字符的txt文件,它是10个字节,你有一个ASCII文件

UTF-16

在UTF-16中,一个字符分配两个字节。所以我们可以在UTF-16中使用65536个不同的字符

Microsoft Windows在内部使用UTF-16

UTF-8

UTF-8是另一种常用的字符编码方式。它使用可变长度字节1字节到4字节作为字符。它还与ASCII兼容,因为ASCII字符使用1字节

大多数基于Unix的系统使用UTF-8

编程语言不依赖于代码页。也许编程语言的特定实现不支持像turboc这样的代码页++

您可以使用现代编程语言中的任何代码页。他们还有一些转换代码页的工具

有不同的Unicode版本,如Utf-7、Utf-8等,。。。你可以阅读他们的推荐!对于更正式的细节,

可能是 国家规定的标准。该规范定义了Unicode的字符集、和一些编码来对这些字符、和进行编码

如何识别新字符的开头

这取决于所使用的编码。UTF-16和UTF-32分别使用固定的码字长度16和32位进行编码,而UTF-7和UTF-8根据要编码的字符点,具有从8位到32位的可变码字长度

如何分配代码点?让我们以汉字为例。分配给它们的码点范围是什么,为什么会这样分配,有什么原因吗

UCS分为所谓的。第一个是基本拉丁语U+0000–U+007F,编码方式类似于ASCII,第二个是拉丁语-1补充U+0080–U+00FF,编码方式类似于ISO 8859-1,依此类推。

是。该规范定义了Unicode的字符集、和一些编码来对这些字符、和进行编码

如何识别新字符的开头

这取决于所使用的编码。UTF-16和UTF-32分别使用固定的码字长度16和32位进行编码,而UTF-7和UTF-8根据要编码的字符点,具有从8位到32位的可变码字长度

如何分配代码点?让我们以汉字为例。分配给它们的码点范围是什么,为什么会这样分配,有什么原因吗


UCS分为所谓的。第一个是基本拉丁语U+0000–U+007F,编码方式类似于ASCII,第二个是拉丁语-1增补版U+0080–U+00FF,编码方式类似于ISO 8859-1等等。

为什么要用自己的话来描述它,而不是引用?特别是如果引文是好的,为什么用你自己的话来描述它,而不是用引文?特别是如果引用是好的。虽然通常是Unicode的好资源,但与此问题无关。虽然通常是Unicode的好资源,但与此问题无关。UTF-16有一组代理,基本上是一行2个16位的数字,用于表示基本多语言平面BMP之外的字符,其中BMP是可由16位值表示的字符。Unicode是一个21位的系统。而且,Unicode 16不是一个标准术语。UCS-2是一个古老的术语,可以追溯到BMP是Unicode的全部;“UTF-16现在已经在美国使用,甚至被微软也在使用。”乔纳森。对你是对的。Unicode16是UTF-16术语@Jonathan-+1表示BMP故事,+1表示UTF-16术语您的术语仍然混淆。如果您有一个包含10个字符的txt文件,它是10个字节,那么您就有了一个ASCII文件!:不一定;ASCII不是唯一的每字符1字节编码。UTF-16每个字符使用2个字节是一个不会消失的误解。UTF-16有一组代理,基本上是一行中的2个16位数字,用于表示基本多语言平面BMP之外的字符,其中BMP是可以由16位值表示的字符。Unicode是一个21位的系统。而且,Unicode 16不是一个标准术语。UCS-2是一个古老的术语,可以追溯到BMP是Unicode的全部;“UTF-16现在已经在美国使用,甚至被微软也在使用。”乔纳森。对你是对的。Unicode16是UTF-16术语@Jonathan-+1表示BMP故事,+1表示UTF-16术语您的术语仍然混淆。如果您有一个包含10个字符的txt文件,它是10个字节,那么您就有了一个ASCII文件!:不一定;ASCII不是唯一的每字符1字节编码。UTF-16每个字符使用2个字节是一个不会消失的误解。我鼓励您阅读Unicode 5标准。这是我读过的最好的书面标准之一。开头几章对Unicode和字符集问题的各个方面进行了非常可读的介绍。并且它在PDF在线免费提供!我鼓励您阅读Unicode 5标准。这是我读过的最好的书面标准之一。开头几章对Unicode和字符集问题的各个方面进行了非常可读的介绍。并且它在PDF在线免费提供!