Python 仅当URL是HTML网页时才下载

Python 仅当URL是HTML网页时才下载,python,download,html-parsing,beautifulsoup,printing-web-page,Python,Download,Html Parsing,Beautifulsoup,Printing Web Page,我想编写一个python脚本,仅当网页包含HTML时才下载该网页。我知道将使用标题中的内容类型。请提出一些建议,因为我无法在下载文件之前获取标题。使用http.client向URL发送HEAD请求。这将只返回资源的标题,然后您可以查看内容类型标题,查看它是否为text/html。如果是,则向URL发送GET请求以获取正文。@NiklasB。我已经研究了request对象并尝试了retrieve函数,但它首先在文件系统上创建一个文件,然后返回email.mimetype对象。但是我只想在内容是HT

我想编写一个python脚本,仅当网页包含HTML时才下载该网页。我知道将使用
标题
中的
内容类型
。请提出一些建议,因为我无法在下载文件之前获取
标题。

使用
http.client
向URL发送
HEAD
请求。这将只返回资源的标题,然后您可以查看
内容类型
标题,查看它是否为
text/html
。如果是,则向URL发送
GET
请求以获取正文。

@NiklasB。我已经研究了request对象并尝试了retrieve函数,但它首先在文件系统上创建一个文件,然后返回email.mimetype对象。但是我只想在内容是HTMLHave-look的情况下下载该文件