Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/355.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 美丽汤解码错误_Python_Html_Beautifulsoup - Fatal编程技术网

Python 美丽汤解码错误

Python 美丽汤解码错误,python,html,beautifulsoup,Python,Html,Beautifulsoup,我在一份工作,我需要解析一个美丽的汤网站。该网站是,但当我试图看到该网站的编码在元的HTML代码没有出现什么。我试图在下载网页的情况下在本地解析HTML,但我遇到了一些解码错误: #之前下载的manta网页 html=open('1.html','r') soup=BeautifulSoup(html,“lxml”) 这将生成以下堆栈跟踪: 回溯(最近一次呼叫最后一次): 文件“E:/Projects/Python/webkit/sample.py”,第10行,在 soup=Beautiful

我在一份工作,我需要解析一个美丽的汤网站。该网站是,但当我试图看到该网站的编码在元的HTML代码没有出现什么。我试图在下载网页的情况下在本地解析HTML,但我遇到了一些解码错误:

#之前下载的manta网页
html=open('1.html','r')
soup=BeautifulSoup(html,“lxml”)
这将生成以下堆栈跟踪:

回溯(最近一次呼叫最后一次):
文件“E:/Projects/Python/webkit/sample.py”,第10行,在
soup=BeautifulSoup(html,“lxml”)
文件“C:\Python27\lib\site packages\bs4\\uuuuu init\uuuuu.py”,第172行,在\uuuu init中__
self._feed()
文件“C:\Python27\lib\site packages\bs4\\uuuu init\uuuuu.py”,第185行,在\u提要中
self.builder.feed(self.markup)
文件“C:\Python27\lib\site packages\bs4\builder\\u lxml.py”,第195行,在提要中
self.parser.close()
文件“parser.pxi”,第1209行,在
lxml.etree.\u FeedParser.close(src\lxm\lxml.etree.c:90717)
文件“parsertarget.pxi”,第142行,在
lxml.etree.\u TargetParserContext.\u handleParseResult(src\lxml\lxml.etree.c:100104)
文件“parsertarget.pxi”,第130行,在
lxml.etree.\u TargetParserContext.\u handleParseResult(src\lxml\lxml.etree.c:99927)
文件“lxml.etree.pyx”,第294行,在lxml.etree.\u ExceptionContext.\u如果存储了
(src\lxml\lxml.etree.c:9387)
lxml.etree.\u handleSaxData(src\lxml)中的文件“saxparser.pxi”,第259行
\lxml.etree.c:96065)
UnicodeDecodeError:“utf8”编解码器无法解码位置105-106中的字节:无效数据
我尝试在Beauty Soup的构造函数中介绍编码:

soup=BeautifulSoup(html,'lxml',来自_encoding=“some encoding”)
我继续得到同样的错误


有趣的是,如果我在浏览器中加载页面,然后将编码更改为utf-8(例如在Firefox中),然后保存它。这项工作做得很好。非常感谢您的帮助。多谢各位

用UTF-8编码字符串

soup = BeautifulSoup(html.encode('UTF-8'),'lxml')

在编码过程中,我尝试并获得了另一个与encode有关的错误,当我将文件的所有行放在一个字符串中时,我尝试执行_ht=_ht.encode('utf-8'),我获得:回溯(最后一次调用):文件“E:/Projects/Python/webkit/sample.py”,第15行,在_ht=_ht.encode('utf-8')UnicodeDecodeError中:“utf8”编解码器无法解码位置152380处的字节0xbb:意外代码byteI请注意,当您可以通过从Firefox保存来解决问题时。您可以尝试重新下载页面,在保存到文件之前,请先将其转换为UTF-8是的,当然,在将页面保存到UTF-8之前,会重新下载页面。但是我不能为我的工作做这件事,我只是为了获取更多信息,我无法打开www.manta.com。URL是否正确?试试这个:这是我想要解析的页面之一,我无法从这里打开它。这只给我们吗?(顺便说一句,如何在评论中创建超链接?)不,这是一个免费的网页,不只是我们的,我不知道你为什么不输入,如果你想尝试像