Python 获取站点上的最后更改

Python 获取站点上的最后更改,python,algorithm,http,web-scraping,beautifulsoup,Python,Algorithm,Http,Web Scraping,Beautifulsoup,我需要用Python创建一个软件,在发生变化时监视站点。目前,我有定期的任务和检查内容的网站与以前的版本。是否有更简单的方法来检查站点内容是否已更改,可能是最近更改的时间,以避免每次下载内容?您可以使用HEADHTTP方法,在实际再次下载完整内容之前,查看修改日期和ETag标题等 但是,没有任何东西可以保证当实体(URL)的内容发生变化时,服务器会实际更新这些标题,或者甚至正确响应HEAD方法。您可以使用HEADHTTP方法,查看Date Modified和ETag标题,等,然后再实际下载完整内

我需要用Python创建一个软件,在发生变化时监视站点。目前,我有定期的任务和检查内容的网站与以前的版本。是否有更简单的方法来检查站点内容是否已更改,可能是最近更改的时间,以避免每次下载内容?

您可以使用
HEAD
HTTP方法,在实际再次下载完整内容之前,查看
修改日期
ETag
标题等


但是,没有任何东西可以保证当实体(URL)的内容发生变化时,服务器会实际更新这些标题,或者甚至正确响应
HEAD
方法。

您可以使用
HEAD
HTTP方法,查看
Date Modified
ETag
标题,等,然后再实际下载完整内容


然而,没有任何东西可以保证当实体(URL)的内容发生变化时,服务器会实际更新这些标题,或者甚至正确地响应
HEAD
方法。

尽管它没有回答您的问题,但我认为值得一提的是,您不必存储以前版本的网站来查找变化。您只需计算md5的总和并存储该总和,然后为新版本计数并检查它们是否相等


关于这个问题本身,AKX给出了一个很好的答案——只需查找
日期修改
标题,但请记住它并不一定有效。

尽管它没有回答您的问题,但我认为值得一提的是,您不必存储网站的早期版本来查找更改。您只需计算md5的总和并存储该总和,然后为新版本计数并检查它们是否相等


关于这个问题本身,AKX给出了一个很好的答案——只需查找
修改日期
标题,但请记住它不一定有效。

谢谢,我现在正在使用散列,但我需要下载内容以提供新的散列来与旧的散列进行比较,但问题是当内容太长时,我会监控很多站点。谢谢,我目前正在使用散列,但我需要下载内容,以提供新的散列与旧的散列进行比较,但问题是,当内容太长时,我会监控很多站点。