Web scraping 如何为提取的每个项目获取由spider跟踪的url跟踪？_Web Scraping_Scrapy_Web Crawler

Web scraping 如何为提取的每个项目获取由spider跟踪的url跟踪？

web-scraping scrapy web-crawler

Web scraping 如何为提取的每个项目获取由spider跟踪的url跟踪？,web-scraping,scrapy,web-crawler,Web Scraping,Scrapy,Web Crawler,我目前正在研究一种蜘蛛，它在电子商务网站上爬行并提取数据。同时，我还需要在产品中保存url跟踪，例如 { 'product_name: "apple iphone 12", 'trail': ["https://www.apple.com/", "https://www.apple.com/iphone/", "https://www.apple.com/iphone-12/" } 与此相同，用户将从起始页转到产品

我目前正在研究一种蜘蛛，它在电子商务网站上爬行并提取数据。同时，我还需要在产品中保存url跟踪，例如

{
'product_name: "apple iphone 12",
'trail': ["https://www.apple.com/", "https://www.apple.com/iphone/", "https://www.apple.com/iphone-12/"
}

与此相同，用户将从起始页转到产品

我使用的是

scrapy 2.4.1

我在回调中将上一个url作为关键字参数传递

资料来源：

def parse(self, response):
    request = scrapy.Request('http://www.example.com/index.html',
                             callback=self.parse_page2,
                             cb_kwargs=dict(main_url=response.url))
    request.cb_kwargs['foo'] = 'bar'  # add more arguments for the callback
    yield request

def parse_page2(self, response, main_url, foo):
    yield dict(
        main_url=main_url,
        other_url=response.url,
        foo=foo,
    )