Scrapy递归地抓取网页并将内容保存为html文件_Scrapy

Scrapy递归地抓取网页并将内容保存为html文件

scrapy

Scrapy递归地抓取网页并将内容保存为html文件,scrapy,Scrapy,我正在使用scrapy提取网页标签中的信息，然后将这些网页保存为HTML文件。例如，本网站有一些与司法案件相关的网页。我想转到每个链接，仅将与特定司法案件相关的内容保存为HTML页。例如，转到此页，然后保存与案件相关的信息是否有一种方法可以在scrapy中递归执行此操作，并将内容保存在HTML页面中是的，您可以使用scrapy执行此操作，这将有助于： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib

我正在使用scrapy提取网页标签中的信息，然后将这些网页保存为HTML文件。例如，本网站有一些与司法案件相关的网页。我想转到每个链接，仅将与特定司法案件相关的内容保存为HTML页。例如，转到此页，然后保存与案件相关的信息

是否有一种方法可以在scrapy中递归执行此操作，并将内容保存在HTML页面中

是的，您可以使用scrapy执行此操作，这将有助于：

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector


class AustliiSpider(CrawlSpider):
    name = "austlii"
    allowed_domains = ["austlii.edu.au"]
    start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"]
    rules = (
        Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'),
    )

    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)

        # do whatever with html content (response.body variable)

希望有帮助