Python 美丽汤解码错误_Python_Html_Beautifulsoup

Python 美丽汤解码错误

python html

Python 美丽汤解码错误,python,html,beautifulsoup,Python,Html,Beautifulsoup,我在一份工作，我需要解析一个美丽的汤网站。该网站是，但当我试图看到该网站的编码在元的HTML代码没有出现什么。我试图在下载网页的情况下在本地解析HTML，但我遇到了一些解码错误： #之前下载的manta网页 html=open（'1.html'，'r'） soup=BeautifulSoup（html，“lxml”）这将生成以下堆栈跟踪：回溯（最近一次呼叫最后一次）：文件“E:/Projects/Python/webkit/sample.py”，第10行，在 soup=Beautiful

我在一份工作，我需要解析一个美丽的汤网站。该网站是，但当我试图看到该网站的编码在元的HTML代码没有出现什么。我试图在下载网页的情况下在本地解析HTML，但我遇到了一些解码错误：

#之前下载的manta网页
html=open（'1.html'，'r'）
soup=BeautifulSoup（html，“lxml”）

这将生成以下堆栈跟踪：

回溯（最近一次呼叫最后一次）：
文件“E:/Projects/Python/webkit/sample.py”，第10行，在
soup=BeautifulSoup（html，“lxml”）
文件“C:\Python27\lib\site packages\bs4\\uuuuu init\uuuuu.py”，第172行，在\uuuu init中__
self._feed（）
文件“C:\Python27\lib\site packages\bs4\\uuuu init\uuuuu.py”，第185行，在\u提要中
self.builder.feed（self.markup）
文件“C:\Python27\lib\site packages\bs4\builder\\u lxml.py”，第195行，在提要中
self.parser.close（）
文件“parser.pxi”，第1209行，在
lxml.etree.\u FeedParser.close（src\lxm\lxml.etree.c:90717）
文件“parsertarget.pxi”，第142行，在
lxml.etree.\u TargetParserContext.\u handleParseResult（src\lxml\lxml.etree.c:100104）
文件“parsertarget.pxi”，第130行，在
lxml.etree.\u TargetParserContext.\u handleParseResult（src\lxml\lxml.etree.c:99927）
文件“lxml.etree.pyx”，第294行，在lxml.etree.\u ExceptionContext.\u如果存储了
（src\lxml\lxml.etree.c:9387）
lxml.etree.\u handleSaxData（src\lxml）中的文件“saxparser.pxi”，第259行
\lxml.etree.c:96065）
UnicodeDecodeError:“utf8”编解码器无法解码位置105-106中的字节：无效数据

我尝试在Beauty Soup的构造函数中介绍编码：

soup=BeautifulSoup（html，'lxml'，来自_encoding=“some encoding”）

我继续得到同样的错误

有趣的是，如果我在浏览器中加载页面，然后将编码更改为utf-8（例如在Firefox中），然后保存它。这项工作做得很好。非常感谢您的帮助。多谢各位

用UTF-8编码字符串

soup = BeautifulSoup(html.encode('UTF-8'),'lxml')

在编码过程中，我尝试并获得了另一个与encode有关的错误，当我将文件的所有行放在一个字符串中时，我尝试执行_ht=_ht.encode（'utf-8'），我获得：回溯（最后一次调用）：文件“E:/Projects/Python/webkit/sample.py”，第15行，在_ht=_ht.encode（'utf-8'）UnicodeDecodeError中：“utf8”编解码器无法解码位置152380处的字节0xbb：意外代码byteI请注意，当您可以通过从Firefox保存来解决问题时。您可以尝试重新下载页面，在保存到文件之前，请先将其转换为UTF-8是的，当然，在将页面保存到UTF-8之前，会重新下载页面。但是我不能为我的工作做这件事，我只是为了获取更多信息，我无法打开www.manta.com。URL是否正确？试试这个：这是我想要解析的页面之一，我无法从这里打开它。这只给我们吗？（顺便说一句，如何在评论中创建超链接？）不，这是一个免费的网页，不只是我们的，我不知道你为什么不输入，如果你想尝试像