Python 我们能否只获取网页标题信息而不获取正文?(机械化)

Python 我们能否只获取网页标题信息而不获取正文?(机械化),python,mechanize,screen-scraping,Python,Mechanize,Screen Scraping,如果我只需要下载自上次下载后未更改的页面,该怎么办? 最好的方法是什么?我可以先得到页面的大小,然后比较页面的大小来决定它是否有变化,如果有,我要求下载,否则跳过 我计划使用(python)mechanize。请求应该是一个,而不是一个GET: 9.4头 HEAD方法与GET方法相同 但服务器不能返回 响应中的消息正文。这个 HTTP中包含的元信息 响应头请求的头 应与信息相同 为响应GET请求而发送。 此方法可用于获取 有关实体的元信息 由请求默示,无需 转移实体本身。 这种方法通常用于测试

如果我只需要下载自上次下载后未更改的页面,该怎么办? 最好的方法是什么?我可以先得到页面的大小,然后比较页面的大小来决定它是否有变化,如果有,我要求下载,否则跳过

我计划使用(python)mechanize。

请求应该是一个,而不是一个GET:

9.4头

HEAD方法与GET方法相同 但服务器不能返回 响应中的消息正文。这个 HTTP中包含的元信息 响应头请求的头 应与信息相同 为响应GET请求而发送。 此方法可用于获取 有关实体的元信息 由请求默示,无需 转移实体本身。 这种方法通常用于测试 超文本链接的有效性, 可访问性,以及最近的 修改

对HEAD请求的响应可以是 可缓存的,即 答复中所载的资料 可用于更新以前的 来自该资源的缓存实体。如果 新字段值表示 缓存的实体与当前实体不同 实体(如 内容长度的变化,Content-MD5, ETag或上次修改),然后缓存 必须将缓存项视为过时


请参见此处?

是的,通过如下设置,您可以在python mechanize中获得更多信息

br = mechanize.Browser()
br.set_debug_http(True)
br.set_debug_redirects(True)
... Your code here ...
通过这样做,您可以获得有价值的页面标题信息