Python “美丽”组不工作
我正在尝试使用BeautifulSoup导入我博客的内容,使用下面给出的语法Python “美丽”组不工作,python,html,beautifulsoup,Python,Html,Beautifulsoup,我正在尝试使用BeautifulSoup导入我博客的内容,使用下面给出的语法 import urllib2 from BeautifulSoup import BeautifulSoup response=urllib2.urlopen('http://www.bugsandbrains.blogspot.com') html=response.read() soup=BeautifulSoup(html) 每件事都正常运行了两
import urllib2
from BeautifulSoup import BeautifulSoup
response=urllib2.urlopen('http://www.bugsandbrains.blogspot.com')
html=response.read()
soup=BeautifulSoup(html)
每件事都正常运行了两三次之后,它开始抛出htmlparserror
我认为页面的结构不太可能在几分钟内改变,还有什么可能导致这个问题
我也附上了痕迹
Traceback (most recent call last):
File "<console>", line 1, in <module>
File "/usr/lib/pymodules/python2.6/BeautifulSoup.py", line 1499, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/usr/lib/pymodules/python2.6/BeautifulSoup.py", line 1230, in __init__
self._feed(isHTML=isHTML)
File "/usr/lib/pymodules/python2.6/BeautifulSoup.py", line 1263, in _feed
self.builder.feed(markup)
File "/usr/lib/python2.6/HTMLParser.py", line 108, in feed
self.goahead(0)
File "/usr/lib/python2.6/HTMLParser.py", line 150, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.6/HTMLParser.py", line 317, in parse_endtag
self.error("bad end tag: %r" % (rawdata[i:j],))
File "/usr/lib/python2.6/HTMLParser.py", line 115, in error
raise HTMLParseError(message, self.getpos())
HTMLParseError: bad end tag: u"</scr' + 'ipt>", at line 1152, column 16
回溯(最近一次呼叫最后一次):
文件“”,第1行,在
文件“/usr/lib/pymodules/python2.6/BeautifulSoup.py”,第1499行,在__
美化ToneSoop.uuu初始_uuuu(self,*args,**kwargs)
文件“/usr/lib/pymodules/python2.6/BeautifulSoup.py”,第1230行,在__
自馈(isHTML=isHTML)
文件“/usr/lib/pymodules/python2.6/BeautifulSoup.py”,第1263行,在
self.builder.feed(标记)
文件“/usr/lib/python2.6/HTMLParser.py”,第108行,在提要中
自我激励(0)
文件“/usr/lib/python2.6/HTMLParser.py”,第150行,在goahead中
k=self.parse_endtag(i)
parse_endtag中的文件“/usr/lib/python2.6/HTMLParser.py”,第317行
self.error(“坏端标记:%r”%(原始数据[i:j],))
文件“/usr/lib/python2.6/HTMLParser.py”,第115行出错
引发HtmlPasserError(消息,self.getpos())
HtmlParserror:错误结束标记:u“”,位于第1152行第16列
我刚刚在Windows上试用了您的代码:
(与您的相同)Python:2.6
(最新版本)BeautiSoup:3.0.8.1
3.0系列
,它是针对python2.6
,而不是3.1系列
,它是针对python3
[0]。对不起,现在想不出其他线索
[0]
http://www.crummy.com/software/BeautifulSoup/#Download
我已经尝试了你的代码,它很有效。我的环境:ActivePython 2.6.6.15,BeautifulSoup 3.0.8.1。我打印了soup
变量,其中包含“无聊引发的帖子”的内容。当我使用浏览器进行测试时,它们会显示Wave沙盒登录页面。没有关于错误的线索:(你能在第1152行附近发布HTML/JS代码吗?“
对我来说看起来很可疑…如果我访问,我会被重定向到Google Wave登录的东西。这会不会是重定向弄乱了你的脚本?