Character encoding 试图找出字符集

Character encoding 试图找出字符集,character-encoding,Character Encoding,我正在从Google Docs下载一个CSV,其中的字符“保存为\xE2\x80\x9C”和“保存为\xE2\x80\x9D” 我的问题是。。。保存的字符集是什么?我怎么才能弄清楚呢?它在UTF-8中。。您可以将其解码为UTF-8,并显示正确的字符 UTF-8也有一种独特的模式,只有3个字节的最高比特集构成一个有效的UTF-8序列,就足以以99%的置信度判断某个东西是否是UTF-8。即使有2个字节的最高比特集形成了一个有效的UTF-8序列,也可以达到90% 在一个例子中,它不是UTF-8,而是

我正在从Google Docs下载一个CSV,其中的字符“保存为\xE2\x80\x9C”和“保存为\xE2\x80\x9D”


我的问题是。。。保存的字符集是什么?我怎么才能弄清楚呢?

它在UTF-8中。。您可以将其解码为UTF-8,并显示正确的字符

UTF-8也有一种独特的模式,只有3个字节的最高比特集构成一个有效的UTF-8序列,就足以以99%的置信度判断某个东西是否是UTF-8。即使有2个字节的最高比特集形成了一个有效的UTF-8序列,也可以达到90%


在一个例子中,它不是UTF-8,而是一些8位代码页,仅仅通过查看字节是不可能分辨出来的。如果没有任何其他信息,您基本上必须使用各种8位编码对其进行解码,然后查看它是否正确。另一种可能是使用一种算法,该算法将自动遍历编码,并查看其结果在任何语言中是否有意义


有了更多信息,如文件保存在什么操作系统和语言环境中,您可以大量减少可能的编码尝试。

这里有一些提示