Python/Django中的西里尔文字提取_Python_Django_Localization

Python/Django中的西里尔文字提取

python django localization

Python/Django中的西里尔文字提取,python,django,localization,Python,Django,Localization,我正在使用urllib2打开一个俄语网站并从中提取文本。然而，它并没有被称为“ББааа”，而是被称为“Áåëëî”。解决这个问题最简单的方法是什么？找出网页使用的编码（可能是utf-8或ISO 8859-5），然后像这样将文本转换为unicode： ustring = unicode(read_string, encoding=...) 如果需要动态确定网页的编码，请参见找出网页使用的编码（可能是utf-8或ISO 8859-5），并将文本转换为unicode，如下所示： ustring =

我正在使用urllib2打开一个俄语网站并从中提取文本。然而，它并没有被称为“ББааа”，而是被称为“Áåëëî”。解决这个问题最简单的方法是什么？

找出网页使用的编码（可能是utf-8或ISO 8859-5），然后像这样将文本转换为unicode：

ustring = unicode(read_string, encoding=...)

如果需要动态确定网页的编码，请参见

找出网页使用的编码（可能是utf-8或ISO 8859-5），并将文本转换为unicode，如下所示：

ustring = unicode(read_string, encoding=...)

如果需要动态确定网页的编码，请参见尝试以下操作：

doc = urllib.open('http://yandex.ru').read()
doc = doc.decode('utf-8')

就这些；）

试试这个：

doc = urllib.open('http://yandex.ru').read()
doc = doc.decode('utf-8')

就这些；）

谢谢“windows-1251”是最终有效的编码。谢谢“windows-1251”是最终起作用的编码。