Character encoding 试图找出字符集_Character Encoding

Character encoding 试图找出字符集

character-encoding

Character encoding 试图找出字符集,character-encoding,Character Encoding,我正在从Google Docs下载一个CSV，其中的字符“保存为\xE2\x80\x9C”和“保存为\xE2\x80\x9D” 我的问题是。。。保存的字符集是什么？我怎么才能弄清楚呢？它在UTF-8中。。您可以将其解码为UTF-8，并显示正确的字符 UTF-8也有一种独特的模式，只有3个字节的最高比特集构成一个有效的UTF-8序列，就足以以99%的置信度判断某个东西是否是UTF-8。即使有2个字节的最高比特集形成了一个有效的UTF-8序列，也可以达到90% 在一个例子中，它不是UTF-8，而是

我正在从Google Docs下载一个CSV，其中的字符“保存为\xE2\x80\x9C”和“保存为\xE2\x80\x9D”

我的问题是。。。保存的字符集是什么？我怎么才能弄清楚呢？

它在UTF-8中。。您可以将其解码为UTF-8，并显示正确的字符

UTF-8也有一种独特的模式，只有3个字节的最高比特集构成一个有效的UTF-8序列，就足以以99%的置信度判断某个东西是否是UTF-8。即使有2个字节的最高比特集形成了一个有效的UTF-8序列，也可以达到90%

在一个例子中，它不是UTF-8，而是一些8位代码页，仅仅通过查看字节是不可能分辨出来的。如果没有任何其他信息，您基本上必须使用各种8位编码对其进行解码，然后查看它是否正确。另一种可能是使用一种算法，该算法将自动遍历编码，并查看其结果在任何语言中是否有意义

有了更多信息，如文件保存在什么操作系统和语言环境中，您可以大量减少可能的编码尝试。

这里有一些提示