当网站URL不变时,如何使用Python BeautifulSoup?

当网站URL不变时,如何使用Python BeautifulSoup?,python,html,web-scraping,beautifulsoup,Python,Html,Web Scraping,Beautifulsoup,我想从一个网站提取数据使用BeautifulSoup(或其他网页抓取工具),虽然我很挣扎,因为网站的URL是相同的前后,你作为一个用户登录。我不想在这里公开分享网站地址,但如果需要,我会在下面发表评论。对于一个简单的示例,让我们使用“example.com”作为参考: 当您第一次导航到abc.com时,URL就是(example.com)。要登录,用户单击登录按钮,然后进入“example.com/login”。问题是,成功登录后,URL返回到“example.com”,尽管HTML代码发生了更

我想从一个网站提取数据使用BeautifulSoup(或其他网页抓取工具),虽然我很挣扎,因为网站的URL是相同的前后,你作为一个用户登录。我不想在这里公开分享网站地址,但如果需要,我会在下面发表评论。对于一个简单的示例,让我们使用“example.com”作为参考:

当您第一次导航到abc.com时,URL就是(example.com)。要登录,用户单击登录按钮,然后进入“example.com/login”。问题是,成功登录后,URL返回到“example.com”,尽管HTML代码发生了更改。当我尝试使用BS4获取站点的HTML代码时,我得到了预先登录的HTML代码,尽管登录后需要访问HTML

以下是我所拥有的:

from bs4 import BeautifulSoup
import requests

source = requests.get('https://www.example.com/').text

soup = BeautifulSoup(source, 'html5lib')

name = soup.find('pointer') 
# this is the class I'm trying to search for, although am not able to find 
# because it is not part of 
# the HTML code in the **pre-log-in** - the class is part of the HTML after 
# logging in 

print(soup.prettify())
有人知道我怎么解决这个问题吗


谢谢

使用selenium登录,然后将页面的源代码传递给beautifulsoup,然后从那里开始工作,怎么样?这可能是实现这一点最简单的方法。

您是否尝试过在登录后从浏览器中的开发者工具中获取会话cookie,然后将其传递到请求的标题中?这有点超出我的技能水平,但我可以尝试谷歌/学习如何做到这一点。我会回来的!:)能否提供会话cookie的外观示例(格式)?我不确定要查找什么,但我在特定网站的cookies中。这取决于网站,但它总是在标题中传递。查看关于如何找到它的建议,或者更好地查看
请求
库中的会话对象。它将为您管理标题。在这种情况下,我只需在会话开始时执行一次正确的操作(当我初始化web驱动程序并第一次运行它时)?是的,我自己也做了类似的操作,我第一次访问了一个网站,向下滚动以加载整个页面,然后将pagesource导入beautifulsoup必须获取的源