HTML与python的结合

HTML与python的结合,python,html,htmltidy,Python,Html,Htmltidy,我正在处理格式错误的html页面,因此需要进行一些清理。Tidy函数产生我想要的精确输出。但是,我希望将HTML文件作为大型Python脚本的一部分进行清理。我试过: from tidylib import tidy_document tidy, errors = tidy_document(html) 但是,尽管tidylib工作得很好,但输出并不像w3上那样“漂亮”。我也找到了,但是我没有找到清理HTML的方法。 我的问题是:使用Python脚本(可能称为外部程序/web解决方案)清理HT

我正在处理格式错误的html页面,因此需要进行一些清理。Tidy函数产生我想要的精确输出。但是,我希望将HTML文件作为大型Python脚本的一部分进行清理。我试过:

from tidylib import tidy_document
tidy, errors = tidy_document(html)
但是,尽管tidylib工作得很好,但输出并不像w3上那样“漂亮”。我也找到了,但是我没有找到清理HTML的方法。
我的问题是:使用Python脚本(可能称为外部程序/web解决方案)清理HTML的最佳方式是什么?w3生成的输出是最好的方式。我是否应该在tidylib中使用其他选项,库中是否有适合w3c标记验证服务的方法,或者我是否应该尝试其他方法。指针/代码片段非常有用。

您可以通过
tidylib.BASE\u选项设置整洁选项


@gnibbler——我转向Tidy的第一个原因是BS无法处理HTML:)。据我所知,使用HTML5lib进行解析可能是,是的,是的,并且是可选的。是的,我查看了选项,但我不确定w3默认使用了哪些选项。