Python:从未知html内容解码
我试图用python中的beautifulsoup提取html页面。页面已编码。请在下面查找代码Python:从未知html内容解码,python,html,beautifulsoup,decode,Python,Html,Beautifulsoup,Decode,我试图用python中的beautifulsoup提取html页面。页面已编码。请在下面查找代码 try: f = urllib.request.urlopen('http://www.#sampledomain.com') r1=BeautifulSoup(f).decode('ascii','ignore') print(r1) except urllib.error.HTTPError as e: print (e) print(f) 收到的输出形
try:
f = urllib.request.urlopen('http://www.#sampledomain.com')
r1=BeautifulSoup(f).decode('ascii','ignore')
print(r1)
except urllib.error.HTTPError as e:
print (e)
print(f)
收到的输出形式如下:
<html>
<body>
<p>
‹ Õ=isãĶŸCÿ¡Ç
</p>
<p>
ôÑ[Û¢£ loŒÈÓ𞱃~›bÇŽà)Ž qÆ8äÐ6¬ *"ûL”b›Ð©…"ñ¬i³ý†
˘•"çžÌi`…)r*¨‘¯e‘pØ~dS/UñŒÈ¥>±‡š*šà]ÓƒnåpÞj8ÁAHàÁ]ÿL餟xØ%•›m+šXäÁ…
ßÔíÙ‘%b‡huµ†\üd»S7]4
›m£«›mÅ`ì^WÔ!(³böI2ö
</ra>
</c>
</u>
</d>
</ebg>
</e>
</e>
</x>
</p>
</body>
</html>
èÕ=是ãÄŸCÿ
59
Ëèèèèèèèèèèèèèèèèèèèj8èAHèèèèèèèèèèè…
ßÔí217;'%b‡huµ†\üd»S7]4
›m«›mìì^WÔ!(³böI2ö
我该如何破译这个
谢谢。如果您不能或不愿意告诉我们您正在删除的站点,那么如果您运行的脚本更为传统和最新,我们可能更容易帮助您进行调试,例如:import requests
import bs4 page=requests.get()http://sample.domain).content-soup=bs4.BeautifulSoup(第“lxml”页)打印(soup)
然后将您收到的任何堆栈转储作为问题的一部分提供给我们。该内容看起来已压缩。先解压缩,然后再进行soup。