Character encoding 从字节中发现字符编码

Character encoding 从字节中发现字符编码,character-encoding,byte,detect,discovery,Character Encoding,Byte,Detect,Discovery,我有一个字符串,其中我知道度符号(°)由字节63(3F)表示 每个字符由一个字节表示 如何找到使用的字符编码?现代几乎所有8位编码都与ASCII范围内的ASCII一致,因此字节3F十六进制是问号“?”。正如Sebtm的评论所指出的,这可能是字符级数据错误造成的。例如,某些仅限于ASCII的软件可能会将所有其他字节转换为“?”——这不是一种好的做法,但也是可能的 如果它是非ASCII字节,您可以使用页面进行猜测。现代几乎所有8位编码都与ASCII范围内的ASCII一致,因此字节3F十六进制是问号“

我有一个字符串,其中我知道度符号(°)由字节63(3F)表示

每个字符由一个字节表示


如何找到使用的字符编码?

现代几乎所有8位编码都与ASCII范围内的ASCII一致,因此字节3F十六进制是问号“?”。正如Sebtm的评论所指出的,这可能是字符级数据错误造成的。例如,某些仅限于ASCII的软件可能会将所有其他字节转换为“?”——这不是一种好的做法,但也是可能的


如果它是非ASCII字节,您可以使用页面进行猜测。

现代几乎所有8位编码都与ASCII范围内的ASCII一致,因此字节3F十六进制是问号“?”。正如Sebtm的评论所指出的,这可能是字符级数据错误造成的。例如,某些仅限于ASCII的软件可能会将所有其他字节转换为“?”——这不是一种好的做法,但也是可能的


如果它是非ASCII字节,您可以使用页面进行猜测。

可能该字节实际上是字符“?”(字节63),因为用于提取数据的odbc驱动程序不知道如何表示该字符并将其替换为“?”。您如何知道字节0x3F对应于U+00B0èè°›
度符号
?我有一个工具,可以可靠地识别文本文件的8位编码,但要做好这项工作,它需要的不仅仅是一个字节。它有一个在几个非常大的英语语料库上训练过的语言模型,因此在这样的文本上做得很好(>99%的准确率)。如果不是英语,你可以(也应该)用不同的模式来表达不同的语言。我确信这是学位的象征。只有我不知道字符编码。可能字节实际上是字符“?”(字节63),因为我提取数据的odbc驱动程序不知道如何表示字符并将其替换为“?”。您如何知道字节0x3F对应于U+00B0è∠度符号
?我有一个工具,可以可靠地识别文本文件的8位编码,但要做好这项工作,它需要的不仅仅是一个字节。它有一个在几个非常大的英语语料库上训练过的语言模型,因此在这样的文本上做得很好(>99%的准确率)。如果不是英语,你可以(也应该)用不同的模式来表达不同的语言。我确信这是学位的象征。只是我不知道字符编码。