当网站URL不变时，如何使用Python BeautifulSoup？_Python_Html_Web Scraping_Beautifulsoup

当网站URL不变时，如何使用Python BeautifulSoup？

python html web-scraping

当网站URL不变时，如何使用Python BeautifulSoup？,python,html,web-scraping,beautifulsoup,Python,Html,Web Scraping,Beautifulsoup,我想从一个网站提取数据使用BeautifulSoup（或其他网页抓取工具），虽然我很挣扎，因为网站的URL是相同的前后，你作为一个用户登录。我不想在这里公开分享网站地址，但如果需要，我会在下面发表评论。对于一个简单的示例，让我们使用“example.com”作为参考：当您第一次导航到abc.com时，URL就是（example.com）。要登录，用户单击登录按钮，然后进入“example.com/login”。问题是，成功登录后，URL返回到“example.com”，尽管HTML代码发生了更

我想从一个网站提取数据使用BeautifulSoup（或其他网页抓取工具），虽然我很挣扎，因为网站的URL是相同的前后，你作为一个用户登录。我不想在这里公开分享网站地址，但如果需要，我会在下面发表评论。对于一个简单的示例，让我们使用“example.com”作为参考：

当您第一次导航到abc.com时，URL就是（example.com）。要登录，用户单击登录按钮，然后进入“example.com/login”。问题是，成功登录后，URL返回到“example.com”，尽管HTML代码发生了更改。当我尝试使用BS4获取站点的HTML代码时，我得到了预先登录的HTML代码，尽管登录后需要访问HTML

以下是我所拥有的：

from bs4 import BeautifulSoup
import requests

source = requests.get('https://www.example.com/').text

soup = BeautifulSoup(source, 'html5lib')

name = soup.find('pointer') 
# this is the class I'm trying to search for, although am not able to find 
# because it is not part of 
# the HTML code in the **pre-log-in** - the class is part of the HTML after 
# logging in 

print(soup.prettify())

有人知道我怎么解决这个问题吗

谢谢

使用selenium登录，然后将页面的源代码传递给beautifulsoup，然后从那里开始工作，怎么样？这可能是实现这一点最简单的方法。

您是否尝试过在登录后从浏览器中的开发者工具中获取会话cookie，然后将其传递到请求的标题中？这有点超出我的技能水平，但我可以尝试谷歌/学习如何做到这一点。我会回来的！：）能否提供会话cookie的外观示例（格式）？我不确定要查找什么，但我在特定网站的cookies中。这取决于网站，但它总是在标题中传递。查看关于如何找到它的建议，或者更好地查看

请求

库中的会话对象。它将为您管理标题。在这种情况下，我只需在会话开始时执行一次正确的操作（当我初始化web驱动程序并第一次运行它时）？是的，我自己也做了类似的操作，我第一次访问了一个网站，向下滚动以加载整个页面，然后将pagesource导入beautifulsoup必须获取的源