Python 我们能否只获取网页标题信息而不获取正文？（机械化）_Python_Mechanize_Screen Scraping

Python 我们能否只获取网页标题信息而不获取正文？（机械化）

python

Python 我们能否只获取网页标题信息而不获取正文？（机械化）,python,mechanize,screen-scraping,Python,Mechanize,Screen Scraping,如果我只需要下载自上次下载后未更改的页面，该怎么办？最好的方法是什么？我可以先得到页面的大小，然后比较页面的大小来决定它是否有变化，如果有，我要求下载，否则跳过我计划使用（python）mechanize。请求应该是一个，而不是一个GET: 9.4头 HEAD方法与GET方法相同但服务器不能返回响应中的消息正文。这个 HTTP中包含的元信息响应头请求的头应与信息相同为响应GET请求而发送。此方法可用于获取有关实体的元信息由请求默示，无需转移实体本身。这种方法通常用于测试

如果我只需要下载自上次下载后未更改的页面，该怎么办？最好的方法是什么？我可以先得到页面的大小，然后比较页面的大小来决定它是否有变化，如果有，我要求下载，否则跳过

我计划使用（python）mechanize。

请求应该是一个，而不是一个GET:

9.4头

HEAD方法与GET方法相同但服务器不能返回响应中的消息正文。这个 HTTP中包含的元信息响应头请求的头应与信息相同为响应GET请求而发送。此方法可用于获取有关实体的元信息由请求默示，无需转移实体本身。这种方法通常用于测试超文本链接的有效性，可访问性，以及最近的修改

对HEAD请求的响应可以是可缓存的，即答复中所载的资料可用于更新以前的来自该资源的缓存实体。如果新字段值表示缓存的实体与当前实体不同实体（如内容长度的变化，Content-MD5， ETag或上次修改），然后缓存必须将缓存项视为过时

请参见此处？

是的，通过如下设置，您可以在python mechanize中获得更多信息

br = mechanize.Browser()
br.set_debug_http(True)
br.set_debug_redirects(True)
... Your code here ...

通过这样做，您可以获得有价值的页面标题信息