HTML与python的结合_Python_Html_Htmltidy

HTML与python的结合

python html

HTML与python的结合,python,html,htmltidy,Python,Html,Htmltidy,我正在处理格式错误的html页面，因此需要进行一些清理。Tidy函数产生我想要的精确输出。但是，我希望将HTML文件作为大型Python脚本的一部分进行清理。我试过： from tidylib import tidy_document tidy, errors = tidy_document(html) 但是，尽管tidylib工作得很好，但输出并不像w3上那样“漂亮”。我也找到了，但是我没有找到清理HTML的方法。我的问题是：使用Python脚本（可能称为外部程序/web解决方案）清理HT

我正在处理格式错误的html页面，因此需要进行一些清理。Tidy函数产生我想要的精确输出。但是，我希望将HTML文件作为大型Python脚本的一部分进行清理。我试过：

from tidylib import tidy_document
tidy, errors = tidy_document(html)

但是，尽管tidylib工作得很好，但输出并不像w3上那样“漂亮”。我也找到了，但是我没有找到清理HTML的方法。

我的问题是：使用Python脚本（可能称为外部程序/web解决方案）清理HTML的最佳方式是什么？w3生成的输出是最好的方式。我是否应该在tidylib中使用其他选项，库中是否有适合w3c标记验证服务的方法，或者我是否应该尝试其他方法。指针/代码片段非常有用。

您可以通过

tidylib.BASE\u选项设置整洁选项

@gnibbler——我转向Tidy的第一个原因是BS无法处理HTML:）。据我所知，使用HTML5lib进行解析可能是，是的，是的，并且是可选的。是的，我查看了选项，但我不确定w3默认使用了哪些选项。