Python/Django中的西里尔文字提取
我正在使用urllib2打开一个俄语网站并从中提取文本。然而,它并没有被称为“ББааа”,而是被称为“Áåëëî”。解决这个问题最简单的方法是什么?找出网页使用的编码(可能是utf-8或ISO 8859-5),然后像这样将文本转换为unicode:Python/Django中的西里尔文字提取,python,django,localization,Python,Django,Localization,我正在使用urllib2打开一个俄语网站并从中提取文本。然而,它并没有被称为“ББааа”,而是被称为“Áåëëî”。解决这个问题最简单的方法是什么?找出网页使用的编码(可能是utf-8或ISO 8859-5),然后像这样将文本转换为unicode: ustring = unicode(read_string, encoding=...) 如果需要动态确定网页的编码,请参见找出网页使用的编码(可能是utf-8或ISO 8859-5),并将文本转换为unicode,如下所示: ustring =
ustring = unicode(read_string, encoding=...)
如果需要动态确定网页的编码,请参见找出网页使用的编码(可能是utf-8或ISO 8859-5),并将文本转换为unicode,如下所示:
ustring = unicode(read_string, encoding=...)
如果需要动态确定网页的编码,请参见尝试以下操作:
doc = urllib.open('http://yandex.ru').read()
doc = doc.decode('utf-8')
就这些;) 试试这个:
doc = urllib.open('http://yandex.ru').read()
doc = doc.decode('utf-8')
就这些;) 谢谢“windows-1251”是最终有效的编码。谢谢“windows-1251”是最终起作用的编码。