Python 3.2漂亮的汤替代品_Python_Html_Web Crawler

Python 3.2漂亮的汤替代品

python html web-crawler

Python 3.2漂亮的汤替代品,python,html,web-crawler,Python,Html,Web Crawler,我需要制作一个网络爬虫来从网页中提取信息。我做了一项研究，发现这非常好，因为我可以解析所有文档，创建dom对象，迭代，提取属性，等等（类似于JQuery）但是我使用的是Python3.2，没有稳定的版本（我想根本没有，只有我在他们的主页上看到的3.1）所以我需要一些很好的替代品。从主页：最新版本适用于从2.4到3.2的所有CPython版本在我看来，大约一年前发布了一个版本的BeautifulSoup3.2.0。还有HTMLPasser我认为最新版本是4.1.1，您可以在这里阅读为此，

我需要制作一个网络爬虫来从网页中提取信息。我做了一项研究，发现这非常好，因为我可以解析所有文档，创建dom对象，迭代，提取属性，等等（类似于JQuery）

但是我使用的是Python3.2，没有稳定的版本（我想根本没有，只有我在他们的主页上看到的3.1）

所以我需要一些很好的替代品。

从主页：

最新版本适用于从2.4到3.2的所有CPython版本

在我看来，大约一年前发布了一个版本的BeautifulSoup3.2.0。还有HTMLPasser

我认为最新版本是4.1.1，您可以在这里阅读

为此，我在我的网站上使用了BS4和PHP已有一段时间了，效果很好。由于PHP/Python不兼容的问题，我不得不切换回BSv3，但这与BS4脚本本身的工作情况不同

最初我使用内置的HTML解析引擎，但发现速度很慢。在我的web服务器上安装LMXL引擎后，速度大幅提高！在实际解析中没有明显的改进，但速度显著提高

我试了一下——我重新尝了一尝，在我决定喝上漂亮的汤之前，我尝试了很多不同的选择

祝你好运

我刚刚阅读了BeautifulSoup3.1系列与Python3.0一起使用的作品，仅此而已（没有提到3.2）。而且3.x版本使用HTMLParser，因为SGMLParser（更好）被删除了：/。作者也不再支持了。@Jirico：这就是为什么我建议使用lxml。lxml看起来不像漂亮的汤那么辣，但我会看一看。谢谢嗯，我想我会得到Python 2.7，我会得到第三方的更多支持……我刚刚尝试了Beauty Soup 3.2.0。安装程序在以下语句中给了我语法错误：print“unittests have failed！”。这是2.x中的老print语句，你怎么能告诉我3.2没问题呢？就像他们要求的那样，将bug（带回溯）报告给。他们非常有帮助，在你开始在这里发布它不起作用之前，给他们一个机会来修复它。（除非你已经报告了）