Python 无法使用scrapy刮取多个页面
我有一个项目要从class-central.com获取数据。如果你打开这个网站并点击任何一个科目(例如计算机科学),你会得到一个课程列表。在页面底部,有一个“下一步”按钮,显示更多课程,该按钮将一直持续到所有课程都显示完毕。我想把所有的课程都擦掉Python 无法使用scrapy刮取多个页面,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我有一个项目要从class-central.com获取数据。如果你打开这个网站并点击任何一个科目(例如计算机科学),你会得到一个课程列表。在页面底部,有一个“下一步”按钮,显示更多课程,该按钮将一直持续到所有课程都显示完毕。我想把所有的课程都擦掉 import scrapy from ..items import ClasscentralItem class ClassCentral(scrapy.Spider): name = 'spidy' start
import scrapy
from ..items import ClasscentralItem
class ClassCentral(scrapy.Spider):
name = 'spidy'
start_urls = [
'https://www.classcentral.com/subject/cs'
]
def parse(self, response):
items = ClasscentralItem()
all_tr = response.css('#course-listing-tbody tr[itemscope]')
courses = response.css('.number-of-courses .text--bold::text')
for x in all_tr:
sub = response.css('.medium-up-head-1::text').extract()
course_name = x.css('.course-name .text--bold::text').get()
course_devloper = x.css('.uni-name::text').extract()
via = x.css('.text--italic::text').get()
duration = x.css('.icon-clock-charcoal::text').extract()
start_date = x.css('.medium-only-hidden::text').get()
rating = x.css('td:nth-child(4)').attrib['data-timestamp']
number_review = x.css('td#span#a::text').get()
items['subjectname'] = sub
items['course_name'] = course_name
items['course_devloper'] = course_devloper
items['via'] = via
items['duration'] = duration
items['start_date'] = start_date
items['rating'] = rating
items['number_review'] = number_review
yield items
我正在努力清除单击“下一步”按钮后显示的课程。
而且,我无法在每门课程上获得“复习次数”。
这是我的密码
请帮忙
(注:我是初学者,请尽量让你的答案简单)使用此链接
https://www.classcentral.com/maestro/subject/cs?page=1
从该站点获取内容。您所需要做的就是更改页码以从下一页获取内容。