Scrapy 抓取博客-通过提前检查json/csv中的URL,避免已经抓取的项目
我喜欢刮新闻页/博客(任何每天都包含新信息的东西) 我的爬虫工作得很好,什么都能做,我好心地请他做 但我找不到一个合适的解决方案,我希望他忽略已经删除的URL(或者让它更通用的项目),只向已经存在的json/csv文件添加新的URL/项目 我在这里看到了许多检查项目是否存在于csv文件中的解决方案。。但这些“解决方案”都没有真正起作用 我的系统上似乎无法安装Scrapy DeltaFetch。。。我收到了错误af和所有提示,例如$sudo pip安装bsddb3,升级这个并更新那个。。等这不管用。(现在试用了3个小时,厌倦了solutionfinding软件包,该软件包自2017年以来从未更新过) 我希望你有一个方便实用的解决方案 提前非常感谢Scrapy 抓取博客-通过提前检查json/csv中的URL,避免已经抓取的项目,scrapy,scrapy-pipeline,Scrapy,Scrapy Pipeline,我喜欢刮新闻页/博客(任何每天都包含新信息的东西) 我的爬虫工作得很好,什么都能做,我好心地请他做 但我找不到一个合适的解决方案,我希望他忽略已经删除的URL(或者让它更通用的项目),只向已经存在的json/csv文件添加新的URL/项目 我在这里看到了许多检查项目是否存在于csv文件中的解决方案。。但这些“解决方案”都没有真正起作用 我的系统上似乎无法安装Scrapy DeltaFetch。。。我收到了错误af和所有提示,例如$sudo pip安装bsddb3,升级这个并更新那个。。等这不管用
致以最良好的祝愿 选项可以是具有以下内容的自定义选项:
- 将爬网的url放入数据库的进程\响应
- 一种进程请求方法,用于检查数据库中是否存在url。如果它在那里,你会提出一个IgnoreRequest,这样请求就不会再通过了