Python 如何识别网站中的变更’;以编程方式构造

Python 如何识别网站中的变更’;以编程方式构造,python,web-scraping,scrapy,web-crawler,health-monitoring,Python,Web Scraping,Scrapy,Web Crawler,Health Monitoring,在Python Scrapy crawler的实现中,我想添加一个健壮的机制,用于监视/检测网站中潜在的布局更改 这些更改不一定会影响现有的spider选择器——例如,一个站点添加了一个新的HTML元素来表示一个项目已收到的访问者数量——我现在可能对这个元素感兴趣。 话虽如此,在移除/重新定位选择器问题的情况下,检测选择器问题(Xpath/CSS)也是有益的 请注意,这与选择器内容更改或网站刷新无关(,如果自上次修改后进行了修改,则为),而是对网站的结构/节点/布局进行了修改 因此,如何实现逻辑

在Python Scrapy crawler的实现中,我想添加一个健壮的机制,用于监视/检测网站中潜在的布局更改

这些更改不一定会影响现有的spider选择器——例如,一个站点添加了一个新的HTML元素来表示一个项目已收到的访问者数量——我现在可能对这个元素感兴趣。 话虽如此,在移除/重新定位选择器问题的情况下,检测选择器问题(Xpath/CSS)也是有益的

请注意,这与选择器内容更改或网站刷新无关(
,如果自上次修改后进行了修改,则为
),而是对网站的结构/节点/布局进行了修改


因此,如何实现逻辑来监控这种情况?

这实际上是一个研究主题,您可以在上看到,但当然有一些实现的工具,您可以查看:


基本上,比较的基础(在前面的方法上)是使用html布局的方法。

Perfect将使用Matiskay的repos,它们似乎潜在地涵盖了布尔问题“它改变了吗?”尽管不是哪个节点改变了,但现在可以-谢谢!!我认为你必须为你正在比较的站点定义一个阈值,就像“相同”的结构意味着它没有改变,但是站点也可以添加元标记,甚至只是一些
p
标记(不太相关的东西),这可能会以最小的方式影响布局结构。希望我能帮你找到解决问题的方法,明白了。我会试试看