使用python lxml为多个页面刮玻璃门_Python_Web Scraping

使用python lxml为多个页面刮玻璃门

python web-scraping

使用python lxml为多个页面刮玻璃门,python,web-scraping,Python,Web Scraping,我正在使用以下脚本通过Glassdoor抓取工作列表。下面的脚本仅略过第一页。我想知道，我该如何扩展它，使它从第1页刮到最后一页我非常感谢任何帮助我会提供一个更一般的答案。在抓取时，要获得下一页，只需获取该页上指向下一页的链接即可对于Glassdoor，您的页面链接都具有page类，通过单击带有class next的li按钮可以访问下一页。然后，您的XPath变为： //li[@class="next"] 然后，您可以通过以下方式访问它： element = document.xpath(

我正在使用以下脚本通过Glassdoor抓取工作列表。下面的脚本仅略过第一页。我想知道，我该如何扩展它，使它从第1页刮到最后一页

我非常感谢任何帮助

我会提供一个更一般的答案。在抓取时，要获得下一页，只需获取该页上指向下一页的链接即可

对于Glassdoor，您的页面链接都具有page类，通过单击带有class next的li按钮可以访问下一页。然后，您的XPath变为：

//li[@class="next"]

然后，您可以通过以下方式访问它：

element = document.xpath("//li[@class='next']")

我们专门寻找该链接，以便在xpath中添加：

//li[@class="next"]//a

并进一步指定我们只需要href属性：

//li[@class="next"]//a/@href

现在您可以使用访问链接

link = document.xpath('//li[@class="next"]//a/@href')

自2018年2月9日起，Glassdoor已经过测试并投入使用。

表示Glassdoor的最终构建URL为https://www.glassdoor.co.uk/Job/boston-android-developer-jobs-SRCH_IL.0，6_IC1154532_KO7,24.htm？。。。然后将页码指定为_IP.htm，其中是页码，例如。https://www.glassdoor.co.uk/Job/boston-android-developer-jobs-SRCH_IL.0，6_IC1154532_KO7,24_IP2.htm？。。。对于第2页，非常好-您是如何实现/测试它的？