使用python lxml为多个页面刮玻璃门

使用python lxml为多个页面刮玻璃门,python,web-scraping,Python,Web Scraping,我正在使用以下脚本通过Glassdoor抓取工作列表。下面的脚本仅略过第一页。我想知道,我该如何扩展它,使它从第1页刮到最后一页 我非常感谢任何帮助我会提供一个更一般的答案。在抓取时,要获得下一页,只需获取该页上指向下一页的链接即可 对于Glassdoor,您的页面链接都具有page类,通过单击带有class next的li按钮可以访问下一页。然后,您的XPath变为: //li[@class="next"] 然后,您可以通过以下方式访问它: element = document.xpath(

我正在使用以下脚本通过Glassdoor抓取工作列表。下面的脚本仅略过第一页。我想知道,我该如何扩展它,使它从第1页刮到最后一页


我非常感谢任何帮助

我会提供一个更一般的答案。在抓取时,要获得下一页,只需获取该页上指向下一页的链接即可

对于Glassdoor,您的页面链接都具有page类,通过单击带有class next的li按钮可以访问下一页。然后,您的XPath变为:

//li[@class="next"]
然后,您可以通过以下方式访问它:

element = document.xpath("//li[@class='next']")
我们专门寻找该链接,以便在xpath中添加:

//li[@class="next"]//a
并进一步指定我们只需要href属性:

//li[@class="next"]//a/@href
现在您可以使用访问链接

link = document.xpath('//li[@class="next"]//a/@href')

自2018年2月9日起,Glassdoor已经过测试并投入使用。

表示Glassdoor的最终构建URL为https://www.glassdoor.co.uk/Job/boston-android-developer-jobs-SRCH_IL.0,6_IC1154532_KO7,24.htm?。。。然后将页码指定为_IP.htm,其中是页码,例如。https://www.glassdoor.co.uk/Job/boston-android-developer-jobs-SRCH_IL.0,6_IC1154532_KO7,24_IP2.htm?。。。对于第2页,非常好-您是如何实现/测试它的?