Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/django/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python/Django中的西里尔文字提取_Python_Django_Localization - Fatal编程技术网

Python/Django中的西里尔文字提取

Python/Django中的西里尔文字提取,python,django,localization,Python,Django,Localization,我正在使用urllib2打开一个俄语网站并从中提取文本。然而,它并没有被称为“ББааа”,而是被称为“Áåëëî”。解决这个问题最简单的方法是什么?找出网页使用的编码(可能是utf-8或ISO 8859-5),然后像这样将文本转换为unicode: ustring = unicode(read_string, encoding=...) 如果需要动态确定网页的编码,请参见找出网页使用的编码(可能是utf-8或ISO 8859-5),并将文本转换为unicode,如下所示: ustring =

我正在使用urllib2打开一个俄语网站并从中提取文本。然而,它并没有被称为“ББааа”,而是被称为“Áåëëî”。解决这个问题最简单的方法是什么?

找出网页使用的编码(可能是utf-8或ISO 8859-5),然后像这样将文本转换为unicode:

ustring = unicode(read_string, encoding=...)

如果需要动态确定网页的编码,请参见

找出网页使用的编码(可能是utf-8或ISO 8859-5),并将文本转换为unicode,如下所示:

ustring = unicode(read_string, encoding=...)
如果需要动态确定网页的编码,请参见尝试以下操作:

doc = urllib.open('http://yandex.ru').read()
doc = doc.decode('utf-8')
就这些;)

试试这个:

doc = urllib.open('http://yandex.ru').read()
doc = doc.decode('utf-8')

就这些;)

谢谢“windows-1251”是最终有效的编码。谢谢“windows-1251”是最终起作用的编码。