Python 如何从包含以下内容的HTML页面检索字符集

Python 如何从包含以下内容的HTML页面检索字符集,python,metadata,Python,Metadata,我使用以下方式打开网站: resp = urlopen("http://...") 对于大多数网站,当我调用resp.info()['content-type']时,我会得到由定义的完整字符串,但对于下面的页面,我只会得到'text/html' <html ...> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <title> <

我使用以下方式打开网站:

resp = urlopen("http://...")
对于大多数网站,当我调用resp.info()['content-type']时,我会得到由定义的完整字符串,但对于下面的页面,我只会得到'text/html'

<html ...>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<title>
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
...

...
我不知道这两个元标记是否是原因(我对此表示怀疑),但为什么它们中的任何一个都没有返回“charset..”?

resp.info()['content-type']返回的是
内容类型
标题字段中的信息,而不是页面内容

从:info()-以mimetools.Message实例的形式返回页面的元信息,例如标题


听起来它可以从html返回元信息,但在本例中,它只是返回头信息。如果你真的想从页面获取元信息,那么试着使用html解析器获取页面内容。

漫长的一天结束了——我错过了显而易见的机会!谢谢你驱散了迷雾。