Python Scrapy试图抓取网页内部链接的信息_Python_Scrapy

Python Scrapy试图抓取网页内部链接的信息

python scrapy

Python Scrapy试图抓取网页内部链接的信息,python,scrapy,Python,Scrapy,我正试图爬过这一页我能够抓取主页上的信息，但当我试图抓取页面的内部链接（例如第一篇帖子）时，我的问题就出现了这是我的代码片段： import scrapy from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy import Item, Field class IT(scrapy.Spi

我正试图爬过这一页

我能够抓取主页上的信息，但当我试图抓取页面的内部链接（例如第一篇帖子）时，我的问题就出现了

这是我的代码片段：

import scrapy

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy import Item, Field

class IT(scrapy.Spider):
    name = 'IT'

    allowed_domains = ["www.jobstreet.com.sg"]
    start_urls = [
        'https://www.jobstreet.com.sg/en/job-search/job-vacancy.php?key=&specialization=191%2C192%2C193&area=&salary=&ojs=3&src=12',
    ]

    rules = (
        Rule(SgmlLinkExtractor(allow=[r'/en/job/*.'], restrict_xpaths=('//*[(@class = "position-title-link")]',)), callback='parse_info', follow=True)
    )


    def parse_info(self, response):

        self.logger.info('response.url=%s' % response.url)

无法从parse_info获取任何类型的响应。

您可以更改

scrapy.Spider

到

你改变

scrapy.Spider

到

但有时，当您在第一条规则中使用回调时，它不起作用。而不是你可以使用它

    def parse_start_url(self, response):
        list(self.parse_info(response))

CrawlSpider

    def parse_start_url(self, response):
        list(self.parse_info(response))