Python 为什么chardet说我的UTF-8编码字符串(最初从ISO-8859-1解码)是ASCII码?
我正在尝试将ascii字符转换为utf-8。下面这个小示例仍然返回ascii字符:Python 为什么chardet说我的UTF-8编码字符串(最初从ISO-8859-1解码)是ASCII码?,python,encoding,utf-8,ascii,decoding,Python,Encoding,Utf 8,Ascii,Decoding,我正在尝试将ascii字符转换为utf-8。下面这个小示例仍然返回ascii字符: chunk = chunk.decode('ISO-8859-1').encode('UTF-8') print chardet.detect(chunk[0:2000]) 它返回: {'confidence': 1.0, 'encoding': 'ascii'} 为什么会这样?引用Python的话: UTF-8有几个方便的特性: 它可以处理任何Unicode代码点 Unicode字符串转换为不包含嵌入零字
chunk = chunk.decode('ISO-8859-1').encode('UTF-8')
print chardet.detect(chunk[0:2000])
它返回:
{'confidence': 1.0, 'encoding': 'ascii'}
为什么会这样?引用Python的话:
UTF-8有几个方便的特性:
>>> s = 'test'
>>> s.encode('ascii') == s.encode('utf-8')
True
>>>
但是,并非所有UTF-8编码的字符串都是有效的ASCII字符串:
>>> foreign_string = u"éâô"
>>> foreign_string.encode('utf-8')
'\xc3\xa9\xc3\xa2\xc3\xb4'
>>> foreign_string.encode('ascii') #This won't work, since it's invalid in ASCII encoding
Traceback (most recent call last):
File "<pyshell#9>", line 1, in <module>
foreign_string.encode('ascii')
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)
>>>
>>foreign_string=u“u”
>>>外来字符串编码('utf-8')
“\xc3\xa9\xc3\xa2\xc3\xb4”
>>>foreign_string.encode('ascii')#这不起作用,因为它在ascii编码中无效
回溯(最近一次呼叫最后一次):
文件“”,第1行,在
外来字符串编码('ascii')
UnicodeEncodeError:“ascii”编解码器无法对位置0-2中的字符进行编码:序号不在范围内(128)
>>>
所以,chardet
仍然正确。只有当有一个字符不是ascii时,chardet
才能判断它不是ascii编码的
希望这个简单的解释有帮助 这就是您获得
ascii
如果序列中的所有字符都是<代码> ASCII 符号>代码> CARDET < /代码>将字符串编码视为<代码> ASCII
注意 Unicode的前128个字符与ASCII一一对应,使用与ASCII具有相同二进制值的单个八位字节进行编码,使有效的ASCII文本也成为有效的UTF-8编码Unicode UTF-8是的超集。这意味着每个有效的Ascii文件(仅使用前128个字符,不使用扩展字符)也将是有效的UTF-8文件。由于编码不是显式存储的,而是每次猜测的,因此它将默认为更简单的字符集。但是,如果您要在UTF-8中对基本128个字符(如外来文本等)之外的任何内容进行编码,则很可能会猜测编码为UTF-8。“foobar”。encode('UTF-8')
是foobar
。