Python Scrapy试图抓取网页内部链接的信息
我正试图爬过这一页 我能够抓取主页上的信息,但当我试图抓取页面的内部链接(例如第一篇帖子)时,我的问题就出现了 这是我的代码片段:Python Scrapy试图抓取网页内部链接的信息,python,scrapy,Python,Scrapy,我正试图爬过这一页 我能够抓取主页上的信息,但当我试图抓取页面的内部链接(例如第一篇帖子)时,我的问题就出现了 这是我的代码片段: import scrapy from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy import Item, Field class IT(scrapy.Spi
import scrapy
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy import Item, Field
class IT(scrapy.Spider):
name = 'IT'
allowed_domains = ["www.jobstreet.com.sg"]
start_urls = [
'https://www.jobstreet.com.sg/en/job-search/job-vacancy.php?key=&specialization=191%2C192%2C193&area=&salary=&ojs=3&src=12',
]
rules = (
Rule(SgmlLinkExtractor(allow=[r'/en/job/*.'], restrict_xpaths=('//*[(@class = "position-title-link")]',)), callback='parse_info', follow=True)
)
def parse_info(self, response):
self.logger.info('response.url=%s' % response.url)
无法从parse_info获取任何类型的响应。您可以更改
scrapy.Spider
到
你改变
scrapy.Spider
到
但有时,当您在第一条规则中使用回调时,它不起作用。
而不是你可以使用它
def parse_start_url(self, response):
list(self.parse_info(response))
CrawlSpider
def parse_start_url(self, response):
list(self.parse_info(response))