Character encoding 从字节中发现字符编码_Character Encoding_Byte_Detect_Discovery

Character encoding 从字节中发现字符编码

character-encoding

Character encoding 从字节中发现字符编码,character-encoding,byte,detect,discovery,Character Encoding,Byte,Detect,Discovery,我有一个字符串，其中我知道度符号（°）由字节63（3F）表示每个字符由一个字节表示如何找到使用的字符编码？现代几乎所有8位编码都与ASCII范围内的ASCII一致，因此字节3F十六进制是问号“？”。正如Sebtm的评论所指出的，这可能是字符级数据错误造成的。例如，某些仅限于ASCII的软件可能会将所有其他字节转换为“？”——这不是一种好的做法，但也是可能的如果它是非ASCII字节，您可以使用页面进行猜测。现代几乎所有8位编码都与ASCII范围内的ASCII一致，因此字节3F十六进制是问号“

我有一个字符串，其中我知道度符号（°）由字节63（3F）表示

每个字符由一个字节表示

如何找到使用的字符编码？

现代几乎所有8位编码都与ASCII范围内的ASCII一致，因此字节3F十六进制是问号“？”。正如Sebtm的评论所指出的，这可能是字符级数据错误造成的。例如，某些仅限于ASCII的软件可能会将所有其他字节转换为“？”——这不是一种好的做法，但也是可能的

如果它是非ASCII字节，您可以使用页面进行猜测。

可能该字节实际上是字符“？”（字节63），因为用于提取数据的odbc驱动程序不知道如何表示该字符并将其替换为“？”。您如何知道字节0x3F对应于U+00B0èè°›

度符号

？我有一个工具，可以可靠地识别文本文件的8位编码，但要做好这项工作，它需要的不仅仅是一个字节。它有一个在几个非常大的英语语料库上训练过的语言模型，因此在这样的文本上做得很好（>99%的准确率）。如果不是英语，你可以（也应该）用不同的模式来表达不同的语言。我确信这是学位的象征。只有我不知道字符编码。可能字节实际上是字符“？”（字节63），因为我提取数据的odbc驱动程序不知道如何表示字符并将其替换为“？”。您如何知道字节0x3F对应于U+00B0è∠度符号

？我有一个工具，可以可靠地识别文本文件的8位编码，但要做好这项工作，它需要的不仅仅是一个字节。它有一个在几个非常大的英语语料库上训练过的语言模型，因此在这样的文本上做得很好（>99%的准确率）。如果不是英语，你可以（也应该）用不同的模式来表达不同的语言。我确信这是学位的象征。只是我不知道字符编码。