C++ MSVC14根据源是UTF-8还是UTF-8 BOM对u8前缀的处理方式不同_C++_Visual Studio_Visual C++_Utf 8_Character Encoding

C++ MSVC14根据源是UTF-8还是UTF-8 BOM对u8前缀的处理方式不同

c++ visual-studio visual-c++ utf-8 character-encoding

C++ MSVC14根据源是UTF-8还是UTF-8 BOM对u8前缀的处理方式不同,c++,visual-studio,visual-c++,utf-8,character-encoding,C++,Visual Studio,Visual C++,Utf 8,Character Encoding,我在试验UTF-8和Qt时遇到了一个奇怪的问题，所以我进行了调查。我创建了一个简单的程序，它以const char[]literals打印字节： #include <cstdio> const char* koshka = "кошка"; const char* utf8_koshka = u8"кошка"; void printhex(const char* str) { for (; *str; ++str) { printf("%02X

我在试验UTF-8和Qt时遇到了一个奇怪的问题，所以我进行了调查。我创建了一个简单的程序，它以

const char[]

literals打印字节：

#include <cstdio>

const char* koshka = "кошка";
const char* utf8_koshka = u8"кошка";

void printhex(const char* str)
{
    for (; *str; ++str)
    {
        printf("%02X ", *str & 0xFF);
    }
    puts("");
}

int main(int argc, char *argv[])
{
    printhex(koshka);
    printhex(utf8_koshka);

    return 0;
}

虽然我真的不明白第一个字符串是从哪里来的，但据我所知，第二个字符串正是应该的

如果将完全相同的代码保存为UTF-8而不包含BOM，则这是输出：

D0 BA D0 BE D1 88 D0 BA D0 B0 
C3 90 C2 BA C3 90 C2 BE C3 91 CB 86 C3 90 C2 BA C3 90 C2 B0

因此，虽然它导致未固定的

const char[]

文本以UTF8的形式保存在二进制文件中，但出于某种原因，它会中断

u8

前缀

但是，如果我们使用

#pragma execution\u character\u set（“utf-8”）

强制执行字符集，则在这两种情况下（带BOM和不带BOM的utf-8），两个字符串都打印为

D0 BA D0 BE d88 D0 BA D0 B0

我已经使用Notepad++在编码之间进行了转换

发生了什么事？

编辑：

艾伦的回答解释了这种行为的原因，但我想补充一句警告。我在使用QtCreator开发Qt5.5.1应用程序时遇到了这个问题。在5.5.1中，

QString（const char*）

构造函数将假定给定字符串编码为UTF-8，因此将调用

QString:：fromUtf8

来构造对象。但是，Qt Creator（默认情况下）将每个文件保存为UTF，而不包含BOM；这会导致MSVC将源输入误解为MBCS，这正是本例中发生的情况，因此在默认设置下，以下操作将起作用：

QMessageBox::information(0, "test", "кошка");

这将失败（莫吉巴克）：

解决方案是在工具->选项->文本编辑器中启用BOM表。请注意，这仅适用于MSVC 2015（或实际为14.0）；旧版本的C++11支持较少/没有，而且那里根本不存在

u8

，因此，如果您在旧版本上使用Qt，最好的办法是依靠编译器因缺少BOM表而感到困惑。

编译器不知道文件的编码是什么。它试图通过查看输入的前缀进行猜测。如果它看到一个UTF-8编码的BOM，那么它假定它正在处理UTF-8。如果没有这个字符，并且没有任何明显的UTF-16字符，它将默认为其他字符。（ISO拉丁语1？无论通用本地MBC是什么？）

如果没有BOM表，编译器将无法确定您的输入是UTF-8编码的，因此假定不是

然后，它将UTF-8编码的每个字节视为单个字符；对于简单的文本，它被逐字复制，对于u8字符串，它被编码为UTF-8，给出了您看到的双重编码

唯一的解决办法似乎是强制BOM；或者，使用UTF-16，这正是Windows平台所喜欢的

另请参见。

3F为“？”。这是有意义的-如果执行集不是UTF-8，那么字符可能不可表示，并且？是一个常见的回退字符。您是否检查了带BOM和不带BOM的UTF-8源文件的编码，以验证没有异常情况发生？C3 90是U+D0的UTF-8编码，C2 BA是U+BA的UTF-8编码。因此，在没有BOM的UTF-8情况下，数据似乎已被UTF-8编码两次。说实话，这是我的第一个想法。但这绝对不应该发生。除非MS假定

cl.exe

永远不必处理没有BOM的UTF8文档（VS在执行此操作时非常积极，每次保存文档时，如果文档采用任何其他格式，它都会将其转换为BOM UTF8）。这就解释了这一点。顺便问一下，你知道为什么

#pragma execution\u character\u set（“utf-8”）

可以解决这两种情况下的问题吗？它告诉编译器应该在二进制中使用什么编码，据我所知，它与输入解释无关。老实说，不知道。编译过程中实际使用了执行字符集（请参见中的阶段5）。pragma似乎不再受支持，我不清楚它的语义是什么，或者应该是什么。

编译器不知道文件的编码是什么。

为什么用看不见的斑点污染我们的文件？为什么不提供一个命令行开关，强制所有源进行预期编码（@rr我同意这是显而易见的事情，其他编译器也会这么做。没有BOM或u8前缀。如果您的系统区域设置与日语类似，那么它将采用Shift JIS。

QMessageBox::information(0, "test", "кошка");

QMessageBox::information(0, "test", u8"кошка");