Scrapy 抓取博客-通过提前检查json/csv中的URL,避免已经抓取的项目

Scrapy 抓取博客-通过提前检查json/csv中的URL,避免已经抓取的项目,scrapy,scrapy-pipeline,Scrapy,Scrapy Pipeline,我喜欢刮新闻页/博客(任何每天都包含新信息的东西) 我的爬虫工作得很好,什么都能做,我好心地请他做 但我找不到一个合适的解决方案,我希望他忽略已经删除的URL(或者让它更通用的项目),只向已经存在的json/csv文件添加新的URL/项目 我在这里看到了许多检查项目是否存在于csv文件中的解决方案。。但这些“解决方案”都没有真正起作用 我的系统上似乎无法安装Scrapy DeltaFetch。。。我收到了错误af和所有提示,例如$sudo pip安装bsddb3,升级这个并更新那个。。等这不管用

我喜欢刮新闻页/博客(任何每天都包含新信息的东西)

我的爬虫工作得很好,什么都能做,我好心地请他做

但我找不到一个合适的解决方案,我希望他忽略已经删除的URL(或者让它更通用的项目),只向已经存在的json/csv文件添加新的URL/项目

我在这里看到了许多检查项目是否存在于csv文件中的解决方案。。但这些“解决方案”都没有真正起作用

我的系统上似乎无法安装Scrapy DeltaFetch。。。我收到了错误af和所有提示,例如$sudo pip安装bsddb3,升级这个并更新那个。。等这不管用。(现在试用了3个小时,厌倦了solutionfinding软件包,该软件包自2017年以来从未更新过)

我希望你有一个方便实用的解决方案

提前非常感谢


致以最良好的祝愿

选项可以是具有以下内容的自定义选项:

  • 将爬网的url放入数据库的进程\响应
  • 一种进程请求方法,用于检查数据库中是否存在url。如果它在那里,你会提出一个IgnoreRequest,这样请求就不会再通过了

谢谢!你能为我提供一个类似任务的现有示例,以便我理解其背后的逻辑吗?我是一个新手,从一开始就真正编写代码。因此,我需要帮助……我认为最接近这一点的是Scrapy library下载中间件中的httpcache: