Python Beautifulsoup未返回页面的完整HTML_Python_Web Scraping_Beautifulsoup

Python Beautifulsoup未返回页面的完整HTML

python web-scraping

Python Beautifulsoup未返回页面的完整HTML,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我已经在网站上挖掘了一段时间，我无法找到解决我的问题的方法。我对网页抓取还比较陌生，我尝试着用Beauty soup从网页中简单地提取一些链接 url = "https://www.sofascore.com/pt/futebol/2018-09-18" page = urlopen(url).read() soup = BeautifulSoup(page, "lxml") print(soup) 在最基本的层面上，我所要做的就是访问网站中的特定标签。我可以自己解决其余的问题，但我正在努力解

我已经在网站上挖掘了一段时间，我无法找到解决我的问题的方法。我对网页抓取还比较陌生，我尝试着用Beauty soup从网页中简单地提取一些链接

url = "https://www.sofascore.com/pt/futebol/2018-09-18"
page = urlopen(url).read()
soup = BeautifulSoup(page, "lxml")
print(soup)

在最基本的层面上，我所要做的就是访问网站中的特定标签。我可以自己解决其余的问题，但我正在努力解决的问题是，我正在寻找的标签不在输出中

例如：使用内置的find（）可以获取以下div class标记： class=“l\uu网格js页面布局”

然而，我实际上寻找的是嵌入在树中较低级别的标记的内容。
js事件列表锦标赛事件

当我对低级标记执行相同的查找操作时，没有得到任何结果

使用基于Azure的Jupyter笔记本，我尝试了许多解决stackoverflow和Non luck上类似问题的方法

谢谢！

Kenny

页面使用JS动态加载数据，因此您必须使用selenium。检查下面的代码。注意：您必须安装selenium和（解压缩文件并复制到python文件夹中）

或者您可以使用他们的json api

import requests
url = 'https://www.sofascore.com/football//2018-09-18/json'
r = requests.get(url)
print(r.json())

我也有同样的问题，下面的代码对我有效。必须安装Chromedriver

import time
from bs4 import BeautifulSoup
from selenium import webdriver

chromedriver_path= "/Users/.../chromedriver"
driver = webdriver.Chrome(chromedriver_path)
url = "https://yourURL.com"
driver.get(url)
time.sleep(3) #if you want to wait 3 seconds for the page to load
page_source = driver.page_source
soup = bs4.BeautifulSoup(page_source, 'lxml')

这个

soup

你可以像往常一样使用。

那个网站使用了很多javascript，所以你必须使用类似Hi Kenny的东西，你可以按照本教程操作

import time
from bs4 import BeautifulSoup
from selenium import webdriver

chromedriver_path= "/Users/.../chromedriver"
driver = webdriver.Chrome(chromedriver_path)
url = "https://yourURL.com"
driver.get(url)
time.sleep(3) #if you want to wait 3 seconds for the page to load
page_source = driver.page_source
soup = bs4.BeautifulSoup(page_source, 'lxml')