Web scraping Scrapy管理动态蜘蛛

Web scraping Scrapy管理动态蜘蛛,web-scraping,scrapy,scrapyd,Web Scraping,Scrapy,Scrapyd,我正在建设一个项目,我需要一个网络爬虫,它可以抓取不同网页的列表。此列表可以随时更改。如何用scrapy最好地实现这一点?我应该为所有网站创建一个蜘蛛还是动态创建蜘蛛 我读过,我想动态创建spider是最好的方法。我需要一个关于如何实现它的提示 如果解析逻辑相同,则有两种方法 对于大量网页,您可以在start\u requests方法或constructor的开始处创建列表并读取该列表,然后将该列表分配给start\u URL 您可以将网页链接作为参数从命令行参数传递给spider,在reque

我正在建设一个项目,我需要一个网络爬虫,它可以抓取不同网页的列表。此列表可以随时更改。如何用scrapy最好地实现这一点?我应该为所有网站创建一个蜘蛛还是动态创建蜘蛛


我读过,我想动态创建spider是最好的方法。我需要一个关于如何实现它的提示

如果解析逻辑相同,则有两种方法

  • 对于大量网页,您可以在start\u requests方法或constructor的开始处创建列表并读取该列表,然后将该列表分配给start\u URL
  • 您可以将网页链接作为参数从命令行参数传递给spider,在requests\u方法或构造函数中也是如此。您可以访问此参数并将其分配给start\u URL
  • 在scrapy中传递参数

        scrapy crawl spider_name -a start_url=your_url
    

    在scrapyd中,将-a替换为-d

    所有这些网站的解析逻辑都是相同的,对吗?解析逻辑是相同的:我在数据库中有许多XPath。最简单的方法是将所有内容都放在一个spider中,所有解析都放在parse回调中(通过对数据库的调用)。是的,听起来像是一个spider用覆盖的
    start\u请求
    方法。