Python 美丽的汤返回空html

Python 美丽的汤返回空html,python,html,beautifulsoup,Python,Html,Beautifulsoup,这是我关于靓汤的第二个问题(对不起,我是初学者) 我试图从该网站获取数据: 我的代码: from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/' uClient = uReq(url) page_html = uClient.read() uClient.

这是我关于靓汤的第二个问题(对不起,我是初学者)

我试图从该网站获取数据:

我的代码:

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = uReq(url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "lxml")

print(page_soup)
但由于某种原因,它返回一个空字符串

我一直在搜索类似的线程,显然这与使用外部api的网站有关,但这个网站没有


尝试使用
请求
模块

Ex:

import requests
from bs4 import BeautifulSoup as soup

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = requests.get(url)
page_soup = soup(uClient.text, "lxml")
print(page_soup)

似乎响应的内容类型是gzip,所以在处理html响应之前需要处理它

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import gzip

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = uReq(url)
page_html = gzip.decompress(uClient.read())
uClient.close()
page_soup = soup(page_html, "lxml")
print(page_soup)

如果您在输入之前
print(page\u html)
,它是否提供了您所期望的完整html页面?谢谢,现在就可以了!你能解释一下区别吗?@DravenMainxd该网站播放一个
内容编码:gzip
标题。请求根据该头对内容进行解码,而
urllib
仅返回接收到的内容。如果您使用有效的
请求,您可以获得与
请求相同的响应内容,谢谢!您在哪里看到了gzip内容类型tho?我调试了网站的响应,它告诉我内容类型是“text/html;charset=UTF-8”。它应该在请求的页面上,您发布的页面不正确,因为它是对wp-embed.min.js的请求