Python BeautifulSoup格式错误的开始标记？_Python_Beautifulsoup

Python BeautifulSoup格式错误的开始标记？

python

Python BeautifulSoup格式错误的开始标记？,python,beautifulsoup,Python,Beautifulsoup,我正在尝试将WordPressXML转换为Octopress，使用部分BeautifulSoup进行迁移当我运行exitwp时，我得到以下输出： writing......................................................Traceback (most recent call last): File "exitwp.py", line 293, in <module> write_jekyll(data, target_fo

我正在尝试将WordPressXML转换为Octopress，使用部分BeautifulSoup进行迁移

当我运行exitwp时，我得到以下输出：

writing......................................................Traceback (most recent call last):


File "exitwp.py", line 293, in <module>
    write_jekyll(data, target_format)
  File "exitwp.py", line 284, in write_jekyll
    out.write(html2fmt(i['body'], target_format))
  File "exitwp.py", line 45, in html2fmt
    return html2text(html, '')
  File "/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py", line 700, in html2text
    return optwrap(html2text_file(html, None, baseurl))
  File "/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py", line 695, in html2text_file
    h.feed(html)
  File "/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py", line 285, in feed
    HTMLParser.HTMLParser.feed(self, data)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 108, in feed
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 148, in goahead
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 229, in parse_starttag
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 304, in check_for_whole_start_tag
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py", line 115, in error
HTMLParser.HTMLParseError: malformed start tag, at line 1, column 64

写入回溯（最近一次呼叫最后一次）：
文件“exitwp.py”，第293行，在
写入jekyll（数据、目标格式）
文件“exitwp.py”，第284行，在write_-jekyll中
out.write（html2fmt（i['body']，target_格式））
html2fmt中第45行的文件“exitwp.py”
返回html2text（html“”）
文件“/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py”，第700行，在html2text中
返回optwrap（html2text_文件（html，None，baseurl））
文件“/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py”，第695行，在html2text\u文件中
h、 提要（html）
文件“/Users/kevinquillen/Documents/workspace/exitwp2/html2text.py”，第285行，在提要中
HTMLParser.HTMLParser.feed（self，data）
feed中的文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”，第108行
goahead中的文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”，第148行
parse_starttag中的文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”，第229行
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”，第304行，检查是否有完整的开始标记
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/HTMLParser.py”，第115行出错
HTMLParser.HTMLPARSERERROR:第1行第64列的起始标记格式错误

我尝试使用Beautifulsoup3.2.0和3.0.7a，但运气不好

我还尝试在帖子上导出不同的日期范围，但在第1行仍然出现相同的错误，尽管列号发生了变化

我能想到的唯一一件事是，一些旧的帖子中有adsense代码，但除此之外，我怎么能轻松找到它被帖子内容阻塞的地方呢

OSX 10.7上的Python 2.7版

编辑：也发生在没有错误标记的页面转储（仅2页）上

更新：它似乎不喜欢锚定标签。标签如下图所示，内容中非常基本的链接。如果删除它们，它将正确编译。为什么它不喜欢这个HTML？删除它们会使它编译时不会出错

<a href="http://www.google.com" target="_blank">Google</a>

像这样修改代码（在html2text.py中）：

我想你会看到，“数据”包含了一些奇怪的东西。如果没有，请将数据添加到问题中。

像这样修改代码（在html2text.py中）：

我想你会看到，“数据”包含了一些奇怪的东西。如果没有，请将数据添加到您的问题中。

您可以添加一些xml不适用于您的示例吗？您可以添加一些xml不适用于您的示例吗？它似乎不喜欢锚标记。Tag like google.com“>google非常基本。删除它们，它编译正确。为什么它不喜欢这个HTML？当然，BeautifulSoup可以解析锚定标记。我经常使用它。其他一些最容易被破坏的东西。请发布您的数据。属性值是否包含换行符或“奇怪的是，我将它们放回XML文件并再次运行，这次没有错误。我将尝试从Wordpress中进行相同的转储，然后重试。可能您试图用HTTP头解析xml。。。。。上面的片段将揭示它。谢谢。看起来它停在断开标签上了。。。移除它们使它工作了。它看起来不像锚定标签。Tag like google.com“>google非常基本。删除它们，它编译正确。为什么它不喜欢这个HTML？当然，BeautifulSoup可以解析锚定标记。我经常使用它。其他一些最容易被破坏的东西。请发布您的数据。属性值是否包含换行符或“奇怪的是，我将它们放回XML文件并再次运行，这次没有错误。我将尝试从Wordpress中进行相同的转储，然后重试。可能您试图用HTTP头解析xml。。。。。上面的片段将揭示它。谢谢。看起来它停在断开标签上了。。。移除它们使它起作用。

try:
    HTMLParser.HTMLParser.feed(self, data)
except:
    print 'malformed data: %r' % data
    raise