Python 再也没有美女了_Python_Parsing

Python 再也没有美女了

python parsing

Python 再也没有美女了,python,parsing,Python,Parsing,我一直在使用BeautifulSoup，但据我所知，该库已不再维护。那么我应该用什么呢？我听说过Xpath，但还有什么呢？好吧，如果您对python没有义务，那么您可以始终使用TagSoup解析器。这是一个Java库，但它提供了非常好的结果。您也可以在尝试解析输入之前使用Tidy来清理输入。尝试lxml lib:有一个错误，所以我甚至不确定您从哪里知道它不再被维护。然而，即使这是真的，BeautifulSoup仍然具有很强的功能性，我也不认为当前的实现会很快崩溃。在接下来的两年中，您可能会开始遇

我一直在使用BeautifulSoup，但据我所知，该库已不再维护。那么我应该用什么呢？我听说过Xpath，但还有什么呢？

好吧，如果您对python没有义务，那么您可以始终使用TagSoup解析器。这是一个Java库，但它提供了非常好的结果。您也可以在尝试解析输入之前使用Tidy来清理输入。

尝试lxml lib:

有一个错误，所以我甚至不确定您从哪里知道它不再被维护。然而，即使这是真的，BeautifulSoup仍然具有很强的功能性，我也不认为当前的实现会很快崩溃。在接下来的两年中，您可能会开始遇到HTML5的问题（尽管有更少的怪癖，因此更容易解析，至少到目前为止是这样），但是没有特别的理由不使用BeautifulSoup。社区仍然在google group上积极提供支持等，很明显，源代码可供您根据需要进行增强。

我会避开

lxml

，它对我来说太挑剔了。如果我是你，我会试试的。它不仅解析html，而且能够处理您在标记库中看到的被称为无效html的错误

它甚至有一个BeautifulSoup仿真模式，以BeautifulSoup形式生成一个解析树，以便于跨以下对象移植旧代码：

import html5lib
from html5lib import treebuilders

f = open("mydocument.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
minidom_document = parser.parse(f)

“视情况而定”。您正在搜索XML解析器还是真实世界的html解析器？“库不再被维护”。我的一位同事告诉我，事实是，这个人通常都是消息灵通的。。但显然不是在这种情况下，我正在寻找一个真实世界的HTML解析器。您是否也尝试过lxml.HTML（而不是lxml.etree）？我对它有很好的体验，即使是非常糟糕的标签汤。另外请注意，您也可以将html5lib解析器与lxml一起使用。不，我没有，但我现在会：）我想我会坚持使用BeautifulSoup事实上，我是。。美丽的群像看起来容易多了