Python：从未知html内容解码_Python_Html_Beautifulsoup_Decode

Python：从未知html内容解码

python html

Python：从未知html内容解码,python,html,beautifulsoup,decode,Python,Html,Beautifulsoup,Decode,我试图用python中的beautifulsoup提取html页面。页面已编码。请在下面查找代码 try: f = urllib.request.urlopen('http://www.#sampledomain.com') r1=BeautifulSoup(f).decode('ascii','ignore') print(r1) except urllib.error.HTTPError as e: print (e) print(f) 收到的输出形

我试图用python中的beautifulsoup提取html页面。页面已编码。请在下面查找代码

try:
    f = urllib.request.urlopen('http://www.#sampledomain.com')
    r1=BeautifulSoup(f).decode('ascii','ignore')
    print(r1)
except urllib.error.HTTPError as e:
    print (e)
    print(f)

收到的输出形式如下：

<html>
 <body>
  <p>
   ‹      Õ=isãÄ¶ŸCÿ¡Ç
  </p>
  <p>
ôÑ[Û¢£  loŒÈÓðž±ƒ~›bÇŽà)Ž qÆ8äÐ6¬    *"ûL”b›Ð©…"ñ¬i³ý† 
Ë˜•"çžÌi`…)r*¨‘¯e‘pØ~dS/UñŒÈ¥&gt;±‡š*šà]ÓƒnåpÞj8ÁAHàÁ]ÿLé¤ŸxØ%•›m+šXäÁ…
ßÔíÙ‘%b‡huµ†\üd»S7]4
›m£«›mÅ`ì^WÔ!(³böI2ö
          </ra>
         </c>
        </u>
       </d>
      </ebg>
     </e>
    </e>
   </x>
  </p>
 </body>
</html>



èÕ=是ãÄŸCÿ


59
Ëèèèèèèèèèèèèèèèèèèèj8èAHèèèèèèèèèèè…
ßÔí217;'%b‡huµ†\üd»S7]4
›m«›mìì^WÔ！（³böI2ö

我该如何破译这个

谢谢。

如果您不能或不愿意告诉我们您正在删除的站点，那么如果您运行的脚本更为传统和最新，我们可能更容易帮助您进行调试，例如：import requests

import bs4 page=requests.get（）http://sample.domain）.content-soup=bs4.BeautifulSoup（第“lxml”页）打印（soup）

然后将您收到的任何堆栈转储作为问题的一部分提供给我们。该内容看起来已压缩。先解压缩，然后再进行soup。