Web scraping 用于管理scrapy Spider的框架

Web scraping 用于管理scrapy Spider的框架,web-scraping,scrapy,Web Scraping,Scrapy,我有一个项目,在这个项目中我已经实现了数百个scrapy Spider。 现在我遇到了以下问题: 网站会不时地更改它们的DOM/API,所以spider会停止工作,或者不会收集所有信息 网站变得不可用或移动到另一个域-蜘蛛停止工作 因为有很多spider,所以监视每个spider的状态并不容易 是否有任何框架可以提供监视爬行动物的功能 正在运行的爬行器的状态 显示十字轴何时停止工作等 我已经研究过scrapinghub/zyte,但不确定它是否适合我们的目的,因为我们需要一些可以在本地运行的东西

我有一个项目,在这个项目中我已经实现了数百个scrapy Spider。 现在我遇到了以下问题:

  • 网站会不时地更改它们的DOM/API,所以spider会停止工作,或者不会收集所有信息
  • 网站变得不可用或移动到另一个域-蜘蛛停止工作
  • 因为有很多spider,所以监视每个spider的状态并不容易
  • 是否有任何框架可以提供监视爬行动物的功能

  • 正在运行的爬行器的状态
  • 显示十字轴何时停止工作等
  • 我已经研究过scrapinghub/zyte,但不确定它是否适合我们的目的,因为我们需要一些可以在本地运行的东西。

    是一个非常方便的调度和监控平台。

    基本上与scrapinghub一样,但您可以在本地运行它。 如果我没记错的话,它可以在爬行器通过电子邮件/slack失败时提醒您。它的用户友好性比scrapinghub稍差一点,因为您必须管理服务器等等。但总的来说,我认为当我使用它时,它是一个很好的平台