Scrapy 抓取博客-通过提前检查json/csv中的URL，避免已经抓取的项目_Scrapy_Scrapy Pipeline

Scrapy 抓取博客-通过提前检查json/csv中的URL，避免已经抓取的项目

scrapy

Scrapy 抓取博客-通过提前检查json/csv中的URL，避免已经抓取的项目,scrapy,scrapy-pipeline,Scrapy,Scrapy Pipeline,我喜欢刮新闻页/博客（任何每天都包含新信息的东西）我的爬虫工作得很好，什么都能做，我好心地请他做但我找不到一个合适的解决方案，我希望他忽略已经删除的URL（或者让它更通用的项目），只向已经存在的json/csv文件添加新的URL/项目我在这里看到了许多检查项目是否存在于csv文件中的解决方案。。但这些“解决方案”都没有真正起作用我的系统上似乎无法安装Scrapy DeltaFetch。。。我收到了错误af和所有提示，例如$sudo pip安装bsddb3，升级这个并更新那个。。等这不管用

我喜欢刮新闻页/博客（任何每天都包含新信息的东西）

我的爬虫工作得很好，什么都能做，我好心地请他做

但我找不到一个合适的解决方案，我希望他忽略已经删除的URL（或者让它更通用的项目），只向已经存在的json/csv文件添加新的URL/项目

我在这里看到了许多检查项目是否存在于csv文件中的解决方案。。但这些“解决方案”都没有真正起作用

我的系统上似乎无法安装Scrapy DeltaFetch。。。我收到了错误af和所有提示，例如$sudo pip安装bsddb3，升级这个并更新那个。。等这不管用。（现在试用了3个小时，厌倦了solutionfinding软件包，该软件包自2017年以来从未更新过）

我希望你有一个方便实用的解决方案

提前非常感谢

致以最良好的祝愿

选项可以是具有以下内容的自定义选项：

将爬网的url放入数据库的进程\响应
一种进程请求方法，用于检查数据库中是否存在url。如果它在那里，你会提出一个IgnoreRequest，这样请求就不会再通过了

谢谢！你能为我提供一个类似任务的现有示例，以便我理解其背后的逻辑吗？我是一个新手，从一开始就真正编写代码。因此，我需要帮助……我认为最接近这一点的是Scrapy library下载中间件中的httpcache：