Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/338.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.2漂亮的汤替代品_Python_Html_Web Crawler - Fatal编程技术网

Python 3.2漂亮的汤替代品

Python 3.2漂亮的汤替代品,python,html,web-crawler,Python,Html,Web Crawler,我需要制作一个网络爬虫来从网页中提取信息。我做了一项研究,发现这非常好,因为我可以解析所有文档,创建dom对象,迭代,提取属性,等等(类似于JQuery) 但是我使用的是Python3.2,没有稳定的版本(我想根本没有,只有我在他们的主页上看到的3.1) 所以我需要一些很好的替代品。从主页: 最新版本适用于从2.4到3.2的所有CPython版本 在我看来,大约一年前发布了一个版本的BeautifulSoup3.2.0。还有HTMLPasser我认为最新版本是4.1.1,您可以在这里阅读 为此,

我需要制作一个网络爬虫来从网页中提取信息。我做了一项研究,发现这非常好,因为我可以解析所有文档,创建dom对象,迭代,提取属性,等等(类似于JQuery)

但是我使用的是Python3.2,没有稳定的版本(我想根本没有,只有我在他们的主页上看到的3.1)

所以我需要一些很好的替代品。

从主页:

最新版本适用于从2.4到3.2的所有CPython版本


在我看来,大约一年前发布了一个版本的BeautifulSoup3.2.0。还有HTMLPasser

我认为最新版本是4.1.1,您可以在这里阅读

为此,我在我的网站上使用了BS4和PHP已有一段时间了,效果很好。由于PHP/Python不兼容的问题,我不得不切换回BSv3,但这与BS4脚本本身的工作情况不同

最初我使用内置的HTML解析引擎,但发现速度很慢。在我的web服务器上安装LMXL引擎后,速度大幅提高!在实际解析中没有明显的改进,但速度显著提高

我试了一下——我重新尝了一尝,在我决定喝上漂亮的汤之前,我尝试了很多不同的选择


祝你好运

我刚刚阅读了BeautifulSoup3.1系列与Python3.0一起使用的作品,仅此而已(没有提到3.2)。而且3.x版本使用HTMLParser,因为SGMLParser(更好)被删除了:/。作者也不再支持了。@Jirico:这就是为什么我建议使用lxml。lxml看起来不像漂亮的汤那么辣,但我会看一看。谢谢嗯,我想我会得到Python 2.7,我会得到第三方的更多支持……我刚刚尝试了Beauty Soup 3.2.0。安装程序在以下语句中给了我语法错误:print“unittests have failed!”。这是2.x中的老print语句,你怎么能告诉我3.2没问题呢?就像他们要求的那样,将bug(带回溯)报告给。他们非常有帮助,在你开始在这里发布它不起作用之前,给他们一个机会来修复它。(除非你已经报告了)