Python 如何识别网站中的变更’；以编程方式构造_Python_Web Scraping_Scrapy_Web Crawler_Health Monitoring

Python 如何识别网站中的变更’；以编程方式构造

python web-scraping scrapy web-crawler

Python 如何识别网站中的变更’；以编程方式构造,python,web-scraping,scrapy,web-crawler,health-monitoring,Python,Web Scraping,Scrapy,Web Crawler,Health Monitoring,在Python Scrapy crawler的实现中，我想添加一个健壮的机制，用于监视/检测网站中潜在的布局更改这些更改不一定会影响现有的spider选择器——例如，一个站点添加了一个新的HTML元素来表示一个项目已收到的访问者数量——我现在可能对这个元素感兴趣。话虽如此，在移除/重新定位选择器问题的情况下，检测选择器问题（Xpath/CSS）也是有益的请注意，这与选择器内容更改或网站刷新无关（，如果自上次修改后进行了修改，则为），而是对网站的结构/节点/布局进行了修改因此，如何实现逻辑

在Python Scrapy crawler的实现中，我想添加一个健壮的机制，用于监视/检测网站中潜在的布局更改

这些更改不一定会影响现有的spider选择器——例如，一个站点添加了一个新的HTML元素来表示一个项目已收到的访问者数量——我现在可能对这个元素感兴趣。话虽如此，在移除/重新定位选择器问题的情况下，检测选择器问题（Xpath/CSS）也是有益的

请注意，这与选择器内容更改或网站刷新无关（

，如果自上次修改后进行了修改，则为），而是对网站的结构/节点/布局进行了修改
因此，如何实现逻辑来监控这种情况？
这实际上是一个研究主题，您可以在上看到，但当然有一些实现的工具，您可以查看：





基本上，比较的基础（在前面的方法上）是使用html布局的方法。
Perfect将使用Matiskay的repos，它们似乎潜在地涵盖了布尔问题“它改变了吗？”尽管不是哪个节点改变了，但现在可以-谢谢！！我认为你必须为你正在比较的站点定义一个阈值，就像“相同”的结构意味着它没有改变，但是站点也可以添加元标记，甚至只是一些p
标记（不太相关的东西），这可能会以最小的方式影响布局结构。希望我能帮你找到解决问题的方法，明白了。我会试试看