如何在Python中将web上的原始html转换为可解析的xml_Python_Html_Xml_Python 3.x

如何在Python中将web上的原始html转换为可解析的xml

python html xml python-3.x

如何在Python中将web上的原始html转换为可解析的xml,python,html,xml,python-3.x,Python,Html,Xml,Python 3.x,我以为BeautifulSoup可以做到这一点，但它似乎不起作用您已经使用了什么方法，并且是长期可靠的？您可以使用lxml库，特别是它为您提供了一个ETree对象，然后您可以将该对象序列化为XML（以及其他）如果这在HTML上失败（它太坏了），您可以使用ElementSoup（BeautifulSoup上的一个扩展）来构建一个lxml.HTML树。您可以尝试，一个用于tidy库的python包装器。整洁在大多数情况下都很好用我想你可以试试webkit或gecko，它更健壮（或者至少更像浏

我以为BeautifulSoup可以做到这一点，但它似乎不起作用

您已经使用了什么方法，并且是长期可靠的？

您可以使用lxml库，特别是它为您提供了一个ETree对象，然后您可以将该对象序列化为XML（以及其他）

如果这在HTML上失败（它太坏了），您可以使用ElementSoup（BeautifulSoup上的一个扩展）来构建一个lxml.HTML树。

您可以尝试，一个用于tidy库的python包装器。整洁在大多数情况下都很好用

我想你可以试试webkit或gecko，它更健壮（或者至少更像浏览器）。我不确定负责清理HTML的包装器是否可用，但您可以看看。

您试过了吗？我不知道，但Tidy能够将难看的HTML转换成性感的XML。也许它的python包装器也能做到这一点？