scrapy爬行蜘蛛:爬行策略/队列问题

scrapy爬行蜘蛛:爬行策略/队列问题,scrapy,web-crawler,Scrapy,Web Crawler,几天前,我开始使用scrapy,学习了如何删除特定的网站,例如dmoz.org;到目前为止还不错,我很喜欢。由于我想了解搜索引擎的发展,我的目标是为大量的任何颜色和内容的网站建立一个爬虫(以及存储、索引器等) 到目前为止,我还尝试了深度一阶和bredth一阶爬行 我现在只使用一个规则,我设置了一些要跳过的路径和一些域 Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains), callback='

几天前,我开始使用scrapy,学习了如何删除特定的网站,例如dmoz.org;到目前为止还不错,我很喜欢。由于我想了解搜索引擎的发展,我的目标是为大量的任何颜色和内容的网站建立一个爬虫(以及存储、索引器等)

到目前为止,我还尝试了深度一阶和bredth一阶爬行

我现在只使用一个规则,我设置了一些要跳过的路径和一些域

Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
        callback='save_page', follow=True),
我有一个管道,一个mysql存储来存储url、正文和下载页面的标题,通过
PageItem
和这些字段完成

我现在的问题是:

  • 使用项目来简单存储页面是否合适

  • 如果一个页面已经被爬网(在过去的六个月里,也就是说,它是以某种方式内置的),蜘蛛会检查数据库,这是如何工作的

  • 是否有类似于无用域的黑名单,如占位符域、链接场等

  • 还有很多其他的问题,比如存储,但我想我就到此为止,还有一个搜索引擎的一般问题

    • 是否有办法从其他专业爬虫程序获取爬网结果数据,当然必须通过发送硬盘来完成,否则如果我自己爬网,数据量将是相同的(压缩放在一边)

      • 我将尝试只回答您的两个问题:

      • 使用项目来简单存储页面是否合适
      • 好了,scrapy不在乎你把什么放进物品的栏位。只有你的管道会处理他们

      • 如果一个页面已经被爬网(在过去的六个月里,也就是说,它是以某种方式内置的),蜘蛛会检查数据库,这是如何工作的
      • Scrapy有重复的中间件,但它只过滤当前会话中的重复项。您必须手动防止scrapy不爬网您六个月前爬网的站点

        至于问题3和4,你不理解它们