Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/313.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在Python中将web上的原始html转换为可解析的xml_Python_Html_Xml_Python 3.x - Fatal编程技术网

如何在Python中将web上的原始html转换为可解析的xml

如何在Python中将web上的原始html转换为可解析的xml,python,html,xml,python-3.x,Python,Html,Xml,Python 3.x,我以为BeautifulSoup可以做到这一点,但它似乎不起作用 您已经使用了什么方法,并且是长期可靠的?您可以使用lxml库,特别是它为您提供了一个ETree对象,然后您可以将该对象序列化为XML(以及其他) 如果这在HTML上失败(它太坏了),您可以使用ElementSoup(BeautifulSoup上的一个扩展)来构建一个lxml.HTML树。您可以尝试,一个用于tidy库的python包装器。 整洁在大多数情况下都很好用 我想你可以试试webkit或gecko,它更健壮(或者至少更像浏

我以为BeautifulSoup可以做到这一点,但它似乎不起作用


您已经使用了什么方法,并且是长期可靠的?

您可以使用lxml库,特别是它为您提供了一个ETree对象,然后您可以将该对象序列化为XML(以及其他)

如果这在HTML上失败(它太坏了),您可以使用ElementSoup(BeautifulSoup上的一个扩展)来构建一个lxml.HTML树。

您可以尝试,一个用于tidy库的python包装器。 整洁在大多数情况下都很好用

我想你可以试试webkit或gecko,它更健壮(或者至少更像浏览器)。我不确定负责清理HTML的包装器是否可用,但您可以看看。

您试过了吗?我不知道,但Tidy能够将难看的HTML转换成性感的XML。也许它的python包装器也能做到这一点?