Parsing Scrapy-解析产品信息&&;产品评论

Parsing Scrapy-解析产品信息&&;产品评论,parsing,scrapy,web-crawler,Parsing,Scrapy,Web Crawler,我正在创建一个爬虫来获取产品信息和产品评论,并从特定类别导出到csv文件。例如,我需要从裤子类别中获取所有信息,因此我的爬行从那里开始 我可以很容易地从那里提取每个产品链接的链接。但是我需要爬虫打开链接,获取每个产品所需的所有信息。我还需要它来获取产品的所有评论,但问题是评论也有分页 我从这里开始: 班组长(刮毛蜘蛛): 我知道如何解析目录列表中的信息,但不知道如何让爬虫跟踪列表中的每个链接。在scrapy中跟踪链接的方法是只生成一个scrapy.Request对象,其中包含URL和要用于处理该

我正在创建一个爬虫来获取产品信息和产品评论,并从特定类别导出到csv文件。例如,我需要从裤子类别中获取所有信息,因此我的爬行从那里开始

我可以很容易地从那里提取每个产品链接的链接。但是我需要爬虫打开链接,获取每个产品所需的所有信息。我还需要它来获取产品的所有评论,但问题是评论也有分页

我从这里开始:

班组长(刮毛蜘蛛):


我知道如何解析目录列表中的信息,但不知道如何让爬虫跟踪列表中的每个链接。

在scrapy中跟踪链接的方法是只生成一个
scrapy.Request
对象,其中包含URL和要用于处理该链接的解析。来自scrapy文档教程“scrapy的以下链接机制:当您在回调方法中生成请求时,scrapy将安排发送该请求,并注册一个回调方法,在该请求完成时执行。”

我建议您在零碎的文档中查看教程,尤其是“以下链接”部分

在您的特定示例中,这是使其工作的代码。请注意,您的产品url需要完整,可能是您从中获取的href只有一个相对url

name = "shein_spider"
start_urls = [
    "https://www.shein.com/Men-Pants-c-1978.html?icn=men-pants&ici=www_tab02navbar02menu01dir06&scici=navbar_3~~tab02navbar02menu01dir06~~2_1_6~~real_1978~~~~0~~0"
]

def parse(self, response):
    for item in response.css('.js-good'):
        product_url = item.css('.category-good-name a::attr(href)').get()
        yield scrapy.Request(product_url, callback=self.parse_item)

def parse_item(self, response):
    # Do what you want to do to process the product details page #

name = "shein_spider"
start_urls = [
    "https://www.shein.com/Men-Pants-c-1978.html?icn=men-pants&ici=www_tab02navbar02menu01dir06&scici=navbar_3~~tab02navbar02menu01dir06~~2_1_6~~real_1978~~~~0~~0"
]

def parse(self, response):
    for item in response.css('.js-good'):
        product_url = item.css('.category-good-name a::attr(href)').get()
        yield scrapy.Request(product_url, callback=self.parse_item)

def parse_item(self, response):
    # Do what you want to do to process the product details page #