如何为不同的语言分配unicode？_Unicode_Character Encoding

如何为不同的语言分配unicode？

unicode character-encoding

如何为不同的语言分配unicode？,unicode,character-encoding,Unicode,Character Encoding,对我来说，这似乎是最令人困惑的问题如何识别新字符的开头如何分配代码点让我们以汉字为例分配给它们的代码点范围是什么为什么会这样分配，有什么原因吗编辑：请用你自己的话来描述，不要引用或者你能推荐一本系统地介绍Unicode的书吗？你认为这本书已经明确了它是最重要的。负责代码点分配。如果您需要分配新字符或代码页，可以在那里应用。有关示例，请参见。负责代码点分配。如果您需要分配新字符或代码页，可以在那里应用。有关示例，请参见。在此处查看可能有用的Unicode概述：在此处查看可能有用的U

对我来说，这似乎是最令人困惑的问题

如何识别新字符的开头

如何分配代码点

让我们以汉字为例

分配给它们的代码点范围是什么

为什么会这样分配，有什么原因吗

编辑：请用你自己的话来描述，不要引用

或者你能推荐一本系统地介绍Unicode的书吗？你认为这本书已经明确了它是最重要的。

负责代码点分配。如果您需要分配新字符或代码页，可以在那里应用。有关示例，请参见。

在此处查看可能有用的Unicode概述：

Unicode规范定义了Unicode的一般结构，包括为哪种字符分配的范围。

的Unicode规范定义了Unicode的一般结构，包括为哪种字符分配的范围。

最好说字符编码而不是代码页

字符编码是一种将某些字符映射到某些数据的方法，反之亦然

正如维基百科所说：

字符编码系统由一个代码组成，该代码将给定指令集中的每个字符与其他字符配对，例如自然数序列、八位字节或电脉冲，以便通过电信网络或计算机中的文本存储方便数据传输（通常是数字和/或文本）

最流行的字符编码是ASCII、UTF-16和UTF-8

ASCII码

计算机中广泛使用的第一个代码页。在ANSI中，每个字符只分配一个字节。所以ANSI可以有一个非常有限的字符集，英文字母，数字

正如我所说，ASCII在MS-DOS等旧操作系统中大量使用。但是ASCII并没有消亡，仍然在使用。当你有一个10个字符的txt文件，它是10个字节，你有一个ASCII文件

UTF-16

在UTF-16中，一个字符分配两个字节。所以我们可以在UTF-16中使用65536个不同的字符

Microsoft Windows在内部使用UTF-16

UTF-8

UTF-8是另一种常用的字符编码方式。它使用可变长度字节1字节到4字节作为字符。它还与ASCII兼容，因为ASCII字符使用1字节

大多数基于Unix的系统使用UTF-8

编程语言不依赖于代码页。也许编程语言的特定实现不支持像turboc这样的代码页++

您可以使用现代编程语言中的任何代码页。他们还有一些转换代码页的工具

有不同的Unicode版本，如Utf-7、Utf-8等，。。。你可以阅读他们的推荐！对于更正式的细节，最好说字符编码而不是代码页

字符编码是一种将某些字符映射到某些数据的方法，反之亦然

正如维基百科所说：

最流行的字符编码是ASCII、UTF-16和UTF-8

ASCII码

计算机中广泛使用的第一个代码页。在ANSI中，每个字符只分配一个字节。所以ANSI可以有一个非常有限的字符集，英文字母，数字

正如我所说，ASCII在MS-DOS等旧操作系统中大量使用。但是ASCII并没有消亡，仍然在使用。当你有一个10个字符的txt文件，它是10个字节，你有一个ASCII文件

UTF-16

在UTF-16中，一个字符分配两个字节。所以我们可以在UTF-16中使用65536个不同的字符

Microsoft Windows在内部使用UTF-16

UTF-8

UTF-8是另一种常用的字符编码方式。它使用可变长度字节1字节到4字节作为字符。它还与ASCII兼容，因为ASCII字符使用1字节

大多数基于Unix的系统使用UTF-8

编程语言不依赖于代码页。也许编程语言的特定实现不支持像turboc这样的代码页++

您可以使用现代编程语言中的任何代码页。他们还有一些转换代码页的工具

有不同的Unicode版本，如Utf-7、Utf-8等，。。。你可以阅读他们的推荐！对于更正式的细节，

可能是国家规定的标准。该规范定义了Unicode的字符集、和一些编码来对这些字符、和进行编码

如何识别新字符的开头

这取决于所使用的编码。UTF-16和UTF-32分别使用固定的码字长度16和32位进行编码，而UTF-7和UTF-8根据要编码的字符点，具有从8位到32位的可变码字长度

如何分配代码点？让我们以汉字为例。分配给它们的码点范围是什么，为什么会这样分配，有什么原因吗

UCS分为所谓的。第一个是基本拉丁语U+0000–U+007F，编码方式类似于ASCII，第二个是拉丁语-1补充U+0080–U+00FF，编码方式类似于ISO 8859-1，依此类推。

是。该规范定义了Unicode的字符集、和一些编码来对这些字符、和进行编码

如何识别新字符的开头

这取决于所使用的编码。UTF-16和UTF-32分别使用固定的码字长度16和32位进行编码，而UTF-7和UTF-8根据要编码的字符点，具有从8位到32位的可变码字长度

如何分配代码点？让我们以汉字为例。分配给它们的码点范围是什么，为什么会这样分配，有什么原因吗

UCS分为所谓的。第一个是基本拉丁语U+0000–U+007F，编码方式类似于ASCII，第二个是拉丁语-1增补版U+0080–U+00FF，编码方式类似于ISO 8859-1等等。

为什么要用自己的话来描述它，而不是引用？特别是如果引文是好的，为什么用你自己的话来描述它，而不是用引文？特别是如果引用是好的。虽然通常是Unicode的好资源，但与此问题无关。虽然通常是Unicode的好资源，但与此问题无关。UTF-16有一组代理，基本上是一行2个16位的数字，用于表示基本多语言平面BMP之外的字符，其中BMP是可由16位值表示的字符。Unicode是一个21位的系统。而且，Unicode 16不是一个标准术语。UCS-2是一个古老的术语，可以追溯到BMP是Unicode的全部；“UTF-16现在已经在美国使用，甚至被微软也在使用。”乔纳森。对你是对的。Unicode16是UTF-16术语@Jonathan-+1表示BMP故事，+1表示UTF-16术语您的术语仍然混淆。如果您有一个包含10个字符的txt文件，它是10个字节，那么您就有了一个ASCII文件！：不一定；ASCII不是唯一的每字符1字节编码。UTF-16每个字符使用2个字节是一个不会消失的误解。UTF-16有一组代理，基本上是一行中的2个16位数字，用于表示基本多语言平面BMP之外的字符，其中BMP是可以由16位值表示的字符。Unicode是一个21位的系统。而且，Unicode 16不是一个标准术语。UCS-2是一个古老的术语，可以追溯到BMP是Unicode的全部；“UTF-16现在已经在美国使用，甚至被微软也在使用。”乔纳森。对你是对的。Unicode16是UTF-16术语@Jonathan-+1表示BMP故事，+1表示UTF-16术语您的术语仍然混淆。如果您有一个包含10个字符的txt文件，它是10个字节，那么您就有了一个ASCII文件！：不一定；ASCII不是唯一的每字符1字节编码。UTF-16每个字符使用2个字节是一个不会消失的误解。我鼓励您阅读Unicode 5标准。这是我读过的最好的书面标准之一。开头几章对Unicode和字符集问题的各个方面进行了非常可读的介绍。并且它在PDF在线免费提供！我鼓励您阅读Unicode 5标准。这是我读过的最好的书面标准之一。开头几章对Unicode和字符集问题的各个方面进行了非常可读的介绍。并且它在PDF在线免费提供！