Utf 8 确保从扩展ASCII编码为UTF8时的一致性_Utf 8_Character Encoding_Extended Ascii_Asciiencoding

Utf 8 确保从扩展ASCII编码为UTF8时的一致性

utf-8 character-encoding

Utf 8 确保从扩展ASCII编码为UTF8时的一致性,utf-8,character-encoding,extended-ascii,asciiencoding,Utf 8,Character Encoding,Extended Ascii,Asciiencoding,也许这不是一个问题，但我期待着收集智慧的SO来帮助我找到答案我们正在努力确保编码在不同平台上是一致的。要走的路显然是UTF8。然而，不幸的是，一些平台使用扩展ASCII（通常是某种形式的Windows代码页），我们担心，当使用umlaut从Windows代码页编码到UTF8时，UTF8中的字符可能有多种选择在不同的平台（Linux、Mac OS）上，我们如何确保选择的UTF8字符是一致的正如我所说，也许这不是问题。也许有一些我不知道的标准映射。我们没有看到任何问题，但一位同事刚刚提出了担忧

也许这不是一个问题，但我期待着收集智慧的SO来帮助我找到答案

我们正在努力确保编码在不同平台上是一致的。要走的路显然是UTF8。然而，不幸的是，一些平台使用扩展ASCII（通常是某种形式的Windows代码页），我们担心，当使用umlaut从Windows代码页编码到UTF8时，UTF8中的字符可能有多种选择

在不同的平台（Linux、Mac OS）上，我们如何确保选择的UTF8字符是一致的

正如我所说，也许这不是问题。也许有一些我不知道的标准映射。我们没有看到任何问题，但一位同事刚刚提出了担忧，因此我正在寻找信息

提前感谢大家。

只要您先正确地将原始文本转换为Unicode，然后使用Utf8存储/传输数据，就不会有问题。

Unicode联盟已经编译了一组。名义上的信息，它们构成了事实上的标准。此外，那里的许多映射反映了正式的标准，因为用Unicode定义任何新的字符编码已变得很正常，即通过指定每个字符的Unicode编号（和/或Unicode名称）

将字符映射到Unicode（即，映射到Unicode代码点或Unicode编号）后，其在每个Unicode编码（如UTF-8）中的编码都已明确定义

因此，问题在于如何确保使用的转换例程根据这些表工作。在这方面，可以认为使用是安全的

另外，没有扩展的ASCII码。有各种字符编码，其中一些在0到0x7F范围内与ASCII一致，而另一些则不一致。

有意义。我们的服务器代码是python，因此unicode在这方面非常简单。有没有想过ICU仍然是C++中处理Unicode的标准？谢谢。我知道“扩展ASCII”没有标准定义，否则我会将“扩展ASCII”大写。然而，这是一个公认的术语，包括使用第8位的字符编码。