Python 仅当URL是HTML网页时才下载_Python_Download_Html Parsing_Beautifulsoup_Printing Web Page

Python 仅当URL是HTML网页时才下载

python download

Python 仅当URL是HTML网页时才下载,python,download,html-parsing,beautifulsoup,printing-web-page,Python,Download,Html Parsing,Beautifulsoup,Printing Web Page,我想编写一个python脚本，仅当网页包含HTML时才下载该网页。我知道将使用标题中的内容类型。请提出一些建议，因为我无法在下载文件之前获取标题。使用http.client向URL发送HEAD请求。这将只返回资源的标题，然后您可以查看内容类型标题，查看它是否为text/html。如果是，则向URL发送GET请求以获取正文。@NiklasB。我已经研究了request对象并尝试了retrieve函数，但它首先在文件系统上创建一个文件，然后返回email.mimetype对象。但是我只想在内容是HT

我想编写一个python脚本，仅当网页包含HTML时才下载该网页。我知道将使用

标题

中的

内容类型

。请提出一些建议，因为我无法在下载文件之前获取

标题。
使用http.client
向URL发送HEAD
请求。这将只返回资源的标题，然后您可以查看内容类型
标题，查看它是否为text/html
。如果是，则向URL发送GET
请求以获取正文。
@NiklasB。我已经研究了request对象并尝试了retrieve函数，但它首先在文件系统上创建一个文件，然后返回email.mimetype对象。但是我只想在内容是HTMLHave-look的情况下下载该文件