Python 再也没有美女了

Python 再也没有美女了,python,parsing,Python,Parsing,我一直在使用BeautifulSoup,但据我所知,该库已不再维护。那么我应该用什么呢?我听说过Xpath,但还有什么呢?好吧,如果您对python没有义务,那么您可以始终使用TagSoup解析器。这是一个Java库,但它提供了非常好的结果。您也可以在尝试解析输入之前使用Tidy来清理输入。尝试lxml lib:有一个错误,所以我甚至不确定您从哪里知道它不再被维护。然而,即使这是真的,BeautifulSoup仍然具有很强的功能性,我也不认为当前的实现会很快崩溃。在接下来的两年中,您可能会开始遇

我一直在使用BeautifulSoup,但据我所知,该库已不再维护。那么我应该用什么呢?我听说过Xpath,但还有什么呢?

好吧,如果您对python没有义务,那么您可以始终使用TagSoup解析器。这是一个Java库,但它提供了非常好的结果。您也可以在尝试解析输入之前使用Tidy来清理输入。

尝试lxml lib:

有一个错误,所以我甚至不确定您从哪里知道它不再被维护。然而,即使这是真的,BeautifulSoup仍然具有很强的功能性,我也不认为当前的实现会很快崩溃。在接下来的两年中,您可能会开始遇到HTML5的问题(尽管有更少的怪癖,因此更容易解析,至少到目前为止是这样),但是没有特别的理由不使用BeautifulSoup。社区仍然在google group上积极提供支持等,很明显,源代码可供您根据需要进行增强。

我会避开
lxml
,它对我来说太挑剔了。如果我是你,我会试试的。它不仅解析html,而且能够处理您在标记库中看到的被称为无效html的错误

它甚至有一个BeautifulSoup仿真模式,以BeautifulSoup形式生成一个解析树,以便于跨以下对象移植旧代码:

import html5lib
from html5lib import treebuilders

f = open("mydocument.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
minidom_document = parser.parse(f)

“视情况而定”。您正在搜索XML解析器还是真实世界的html解析器?“库不再被维护”。我的一位同事告诉我,事实是,这个人通常都是消息灵通的。。但显然不是在这种情况下,我正在寻找一个真实世界的HTML解析器。您是否也尝试过lxml.HTML(而不是lxml.etree)?我对它有很好的体验,即使是非常糟糕的标签汤。另外请注意,您也可以将html5lib解析器与lxml一起使用。不,我没有,但我现在会:)我想我会坚持使用BeautifulSoup事实上,我是。。美丽的群像看起来容易多了