Utf 8 确保从扩展ASCII编码为UTF8时的一致性

Utf 8 确保从扩展ASCII编码为UTF8时的一致性,utf-8,character-encoding,extended-ascii,asciiencoding,Utf 8,Character Encoding,Extended Ascii,Asciiencoding,也许这不是一个问题,但我期待着收集智慧的SO来帮助我找到答案 我们正在努力确保编码在不同平台上是一致的。要走的路显然是UTF8。然而,不幸的是,一些平台使用扩展ASCII(通常是某种形式的Windows代码页),我们担心,当使用umlaut从Windows代码页编码到UTF8时,UTF8中的字符可能有多种选择 在不同的平台(Linux、Mac OS)上,我们如何确保选择的UTF8字符是一致的 正如我所说,也许这不是问题。也许有一些我不知道的标准映射。我们没有看到任何问题,但一位同事刚刚提出了担忧

也许这不是一个问题,但我期待着收集智慧的SO来帮助我找到答案

我们正在努力确保编码在不同平台上是一致的。要走的路显然是UTF8。然而,不幸的是,一些平台使用扩展ASCII(通常是某种形式的Windows代码页),我们担心,当使用umlaut从Windows代码页编码到UTF8时,UTF8中的字符可能有多种选择

在不同的平台(Linux、Mac OS)上,我们如何确保选择的UTF8字符是一致的

正如我所说,也许这不是问题。也许有一些我不知道的标准映射。我们没有看到任何问题,但一位同事刚刚提出了担忧,因此我正在寻找信息


提前感谢大家。

只要您先正确地将原始文本转换为Unicode,然后使用Utf8存储/传输数据,就不会有问题。

Unicode联盟已经编译了一组。名义上的信息,它们构成了事实上的标准。此外,那里的许多映射反映了正式的标准,因为用Unicode定义任何新的字符编码已变得很正常,即通过指定每个字符的Unicode编号(和/或Unicode名称)

将字符映射到Unicode(即,映射到Unicode代码点或Unicode编号)后,其在每个Unicode编码(如UTF-8)中的编码都已明确定义

因此,问题在于如何确保使用的转换例程根据这些表工作。在这方面,可以认为使用是安全的


另外,没有扩展的ASCII码。有各种字符编码,其中一些在0到0x7F范围内与ASCII一致,而另一些则不一致。

有意义。我们的服务器代码是python,因此unicode在这方面非常简单。有没有想过ICU仍然是C++中处理Unicode的标准?谢谢。我知道“扩展ASCII”没有标准定义,否则我会将“扩展ASCII”大写。然而,这是一个公认的术语,包括使用第8位的字符编码。