Python Scrapy试图抓取网页内部链接的信息

Python Scrapy试图抓取网页内部链接的信息,python,scrapy,Python,Scrapy,我正试图爬过这一页 我能够抓取主页上的信息,但当我试图抓取页面的内部链接(例如第一篇帖子)时,我的问题就出现了 这是我的代码片段: import scrapy from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy import Item, Field class IT(scrapy.Spi

我正试图爬过这一页

我能够抓取主页上的信息,但当我试图抓取页面的内部链接(例如第一篇帖子)时,我的问题就出现了

这是我的代码片段:

import scrapy

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy import Item, Field

class IT(scrapy.Spider):
    name = 'IT'

    allowed_domains = ["www.jobstreet.com.sg"]
    start_urls = [
        'https://www.jobstreet.com.sg/en/job-search/job-vacancy.php?key=&specialization=191%2C192%2C193&area=&salary=&ojs=3&src=12',
    ]

    rules = (
        Rule(SgmlLinkExtractor(allow=[r'/en/job/*.'], restrict_xpaths=('//*[(@class = "position-title-link")]',)), callback='parse_info', follow=True)
    )


    def parse_info(self, response):

        self.logger.info('response.url=%s' % response.url)
无法从parse_info获取任何类型的响应。

您可以更改

scrapy.Spider

你改变

scrapy.Spider

但有时,当您在第一条规则中使用回调时,它不起作用。 而不是你可以使用它

    def parse_start_url(self, response):
        list(self.parse_info(response))
CrawlSpider
    def parse_start_url(self, response):
        list(self.parse_info(response))