Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/dart/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python BeautifulSoup格式错误的开始标记?_Python_Beautifulsoup - Fatal编程技术网

Python BeautifulSoup格式错误的开始标记?

Python BeautifulSoup格式错误的开始标记?,python,beautifulsoup,Python,Beautifulsoup,我正在尝试将WordPressXML转换为Octopress,使用部分BeautifulSoup进行迁移 当我运行exitwp时,我得到以下输出: writing......................................................Traceback (most recent call last): File "exitwp.py", line 293, in <module> write_jekyll(data, target_fo

我正在尝试将WordPressXML转换为Octopress,使用部分BeautifulSoup进行迁移

当我运行exitwp时,我得到以下输出:

writing......................................................Traceback (most recent call last):


File "exitwp.py", line 293, in <module>
    write_jekyll(data, target_format)
  File "exitwp.py", line 284, in write_jekyll
    out.write(html2fmt(i['body'], target_format))
  File "exitwp.py", line 45, in html2fmt
    return html2text(html, '')
  File "/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py", line 700, in html2text
    return optwrap(html2text_file(html, None, baseurl))
  File "/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py", line 695, in html2text_file
    h.feed(html)
  File "/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py", line 285, in feed
    HTMLParser.HTMLParser.feed(self, data)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 108, in feed
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 148, in goahead
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 229, in parse_starttag
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 304, in check_for_whole_start_tag
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 115, in error
HTMLParser.HTMLParseError: malformed start tag, at line 1, column 64
写入回溯(最近一次呼叫最后一次):
文件“exitwp.py”,第293行,在
写入jekyll(数据、目标格式)
文件“exitwp.py”,第284行,在write_-jekyll中
out.write(html2fmt(i['body'],target_格式))
html2fmt中第45行的文件“exitwp.py”
返回html2text(html“”)
文件“/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py”,第700行,在html2text中
返回optwrap(html2text_文件(html,None,baseurl))
文件“/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py”,第695行,在html2text\u文件中
h、 提要(html)
文件“/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py”,第285行,在提要中
HTMLParser.HTMLParser.feed(self,data)
feed中的文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”,第108行
goahead中的文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”,第148行
parse_starttag中的文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”,第229行
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”,第304行,检查是否有完整的开始标记
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”,第115行出错
HTMLParser.HTMLPARSERERROR:第1行第64列的起始标记格式错误
我尝试使用Beautifulsoup3.2.0和3.0.7a,但运气不好

我还尝试在帖子上导出不同的日期范围,但在第1行仍然出现相同的错误,尽管列号发生了变化

我能想到的唯一一件事是,一些旧的帖子中有adsense代码,但除此之外,我怎么能轻松找到它被帖子内容阻塞的地方呢

OSX 10.7上的Python 2.7版

编辑:也发生在没有错误标记的页面转储(仅2页)上


更新:它似乎不喜欢锚定标签。标签如下图所示,内容中非常基本的链接。如果删除它们,它将正确编译。为什么它不喜欢这个HTML?删除它们会使它编译时不会出错

<a href="http://www.google.com" target="_blank">Google</a>

像这样修改代码(在html2text.py中):


我想你会看到,“数据”包含了一些奇怪的东西。如果没有,请将数据添加到问题中。

像这样修改代码(在html2text.py中):


我想你会看到,“数据”包含了一些奇怪的东西。如果没有,请将数据添加到您的问题中。

您可以添加一些xml不适用于您的示例吗?您可以添加一些xml不适用于您的示例吗?它似乎不喜欢锚标记。Tag like google.com“>google非常基本。删除它们,它编译正确。为什么它不喜欢这个HTML?当然,BeautifulSoup可以解析锚定标记。我经常使用它。其他一些最容易被破坏的东西。请发布您的数据。属性值是否包含换行符或“奇怪的是,我将它们放回XML文件并再次运行,这次没有错误。我将尝试从Wordpress中进行相同的转储,然后重试。可能您试图用HTTP头解析xml。。。。。上面的片段将揭示它。谢谢。看起来它停在断开标签上了。。。移除它们使它工作了。它看起来不像锚定标签。Tag like google.com“>google非常基本。删除它们,它编译正确。为什么它不喜欢这个HTML?当然,BeautifulSoup可以解析锚定标记。我经常使用它。其他一些最容易被破坏的东西。请发布您的数据。属性值是否包含换行符或“奇怪的是,我将它们放回XML文件并再次运行,这次没有错误。我将尝试从Wordpress中进行相同的转储,然后重试。可能您试图用HTTP头解析xml。。。。。上面的片段将揭示它。谢谢。看起来它停在断开标签上了。。。移除它们使它起作用。
try:
    HTMLParser.HTMLParser.feed(self, data)
except:
    print 'malformed data: %r' % data
    raise