如何在Python中将web上的原始html转换为可解析的xml
我以为BeautifulSoup可以做到这一点,但它似乎不起作用如何在Python中将web上的原始html转换为可解析的xml,python,html,xml,python-3.x,Python,Html,Xml,Python 3.x,我以为BeautifulSoup可以做到这一点,但它似乎不起作用 您已经使用了什么方法,并且是长期可靠的?您可以使用lxml库,特别是它为您提供了一个ETree对象,然后您可以将该对象序列化为XML(以及其他) 如果这在HTML上失败(它太坏了),您可以使用ElementSoup(BeautifulSoup上的一个扩展)来构建一个lxml.HTML树。您可以尝试,一个用于tidy库的python包装器。 整洁在大多数情况下都很好用 我想你可以试试webkit或gecko,它更健壮(或者至少更像浏
您已经使用了什么方法,并且是长期可靠的?您可以使用lxml库,特别是它为您提供了一个ETree对象,然后您可以将该对象序列化为XML(以及其他) 如果这在HTML上失败(它太坏了),您可以使用ElementSoup(BeautifulSoup上的一个扩展)来构建一个lxml.HTML树。您可以尝试,一个用于tidy库的python包装器。 整洁在大多数情况下都很好用 我想你可以试试webkit或gecko,它更健壮(或者至少更像浏览器)。我不确定负责清理HTML的包装器是否可用,但您可以看看。您试过了吗?我不知道,但Tidy能够将难看的HTML转换成性感的XML。也许它的python包装器也能做到这一点?