Python Beautifulsoup未返回页面的完整HTML

Python Beautifulsoup未返回页面的完整HTML,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我已经在网站上挖掘了一段时间,我无法找到解决我的问题的方法。我对网页抓取还比较陌生,我尝试着用Beauty soup从网页中简单地提取一些链接 url = "https://www.sofascore.com/pt/futebol/2018-09-18" page = urlopen(url).read() soup = BeautifulSoup(page, "lxml") print(soup) 在最基本的层面上,我所要做的就是访问网站中的特定标签。我可以自己解决其余的问题,但我正在努力解

我已经在网站上挖掘了一段时间,我无法找到解决我的问题的方法。我对网页抓取还比较陌生,我尝试着用Beauty soup从网页中简单地提取一些链接

url = "https://www.sofascore.com/pt/futebol/2018-09-18"
page = urlopen(url).read()
soup = BeautifulSoup(page, "lxml")
print(soup)
在最基本的层面上,我所要做的就是访问网站中的特定标签。我可以自己解决其余的问题,但我正在努力解决的问题是,我正在寻找的标签不在输出中

例如:使用内置的find()可以获取以下div class标记: class=“l\uu网格js页面布局”

然而,我实际上寻找的是嵌入在树中较低级别的标记的内容。
js事件列表锦标赛事件

当我对低级标记执行相同的查找操作时,没有得到任何结果

使用基于Azure的Jupyter笔记本,我尝试了许多解决stackoverflow和Non luck上类似问题的方法

谢谢!
Kenny

页面使用JS动态加载数据,因此您必须使用selenium。检查下面的代码。 注意:您必须安装selenium和(解压缩文件并复制到python文件夹中)

或者您可以使用他们的json api

import requests
url = 'https://www.sofascore.com/football//2018-09-18/json'
r = requests.get(url)
print(r.json())

我也有同样的问题,下面的代码对我有效。必须安装Chromedriver

import time
from bs4 import BeautifulSoup
from selenium import webdriver

chromedriver_path= "/Users/.../chromedriver"
driver = webdriver.Chrome(chromedriver_path)
url = "https://yourURL.com"
driver.get(url)
time.sleep(3) #if you want to wait 3 seconds for the page to load
page_source = driver.page_source
soup = bs4.BeautifulSoup(page_source, 'lxml')

这个
soup
你可以像往常一样使用。

那个网站使用了很多javascript,所以你必须使用类似Hi Kenny的东西,你可以按照本教程操作
import time
from bs4 import BeautifulSoup
from selenium import webdriver

chromedriver_path= "/Users/.../chromedriver"
driver = webdriver.Chrome(chromedriver_path)
url = "https://yourURL.com"
driver.get(url)
time.sleep(3) #if you want to wait 3 seconds for the page to load
page_source = driver.page_source
soup = bs4.BeautifulSoup(page_source, 'lxml')