Python 登录重定向后的web抓取
我需要从被登录重定向“阻止”的网页中刮取数据。因此,我使用Python 登录重定向后的web抓取,python,selenium,web-scraping,beautifulsoup,Python,Selenium,Web Scraping,Beautifulsoup,我需要从被登录重定向“阻止”的网页中刮取数据。因此,我使用selenium输入所有必要的登录信息并导航到数据所在的位置。然而,据我所知,selenium不支持提取标题和其他文本数据,这意味着我将不得不使用另一个web抓取工具,如Beauty soup。但是,这些工具需要一个直接的URL链接,该链接无论如何都会将该工具重定向到登录页面 是否有一种方法可以使用selenium提取数据,或者启用另一个工具与已登录的selenium工具交互以提取数据?您可以提取页面源并将其输入到beautiful so
selenium
输入所有必要的登录信息并导航到数据所在的位置。然而,据我所知,selenium
不支持提取标题和其他文本数据,这意味着我将不得不使用另一个web抓取工具,如Beauty soup
。但是,这些工具需要一个直接的URL链接,该链接无论如何都会将该工具重定向到登录页面
是否有一种方法可以使用
selenium
提取数据,或者启用另一个工具与已登录的selenium
工具交互以提取数据?您可以提取页面源并将其输入到beautiful soup中
html = driver.page_source
soup = BeautifulSoup(html)
但是在浏览器(F12网络)中查找代码,看看登录是否是restapi服务,然后使用requests和http.cookiejar并创建可以注入selenum的适当cookie就容易多了。第一次将页面源代码加载到html中工作得很好,谢谢。