Python 正在寻找一个关于网页抓取项目最佳实践的好教程的推荐?

Python 正在寻找一个关于网页抓取项目最佳实践的好教程的推荐?,python,ruby,screen-scraping,beautifulsoup,hpricot,Python,Ruby,Screen Scraping,Beautifulsoup,Hpricot,我需要做一个相当广泛的项目,包括网页抓取,我正在考虑使用Hpricot或BeautifulSoup(即Ruby或Python)。有没有人遇到过一个他们认为在这个主题上特别好的教程,可以帮助我正确地开始这个项目?我最喜欢的两个Python web抓取工具是和。每一个项目都有自己的教程和最佳实践。实际上不是一个工具,但迈克尔·史伦克的书是一个很好的讨论 这本书很好地完成了它的既定使命:解释如何构建简单的网络机器人,并按照社区标准操作它们。这不是你需要知道的一切,但这是我见过的最好的介绍。重点是简单的

我需要做一个相当广泛的项目,包括网页抓取,我正在考虑使用Hpricot或BeautifulSoup(即Ruby或Python)。有没有人遇到过一个他们认为在这个主题上特别好的教程,可以帮助我正确地开始这个项目?

我最喜欢的两个Python web抓取工具是和。每一个项目都有自己的教程和最佳实践。

实际上不是一个工具,但迈克尔·史伦克的书是一个很好的讨论

这本书很好地完成了它的既定使命:解释如何构建简单的网络机器人,并按照社区标准操作它们。这不是你需要知道的一切,但这是我见过的最好的介绍。重点是简单的单线程机器人。有人提到使用多个机器人将数据存储在中央存储库中,但没有讨论编写多线程或分布式机器人每秒可以处理数百页所涉及的问题

如果您对编写Web机器人有兴趣,即使您不熟悉或不打算使用PHP,我建议您阅读本书。但是请确保不要期望比这本书提供的更多。

对于Ruby,web scraping toolkit非常优秀。这里是它,这是值得一读的,即使你将使用其他一些工具。

看看使用而不是美化。尽管它的名字,它也是用于解析和抓取HTML的。它比BeautifulSoup快得多,甚至比BeautifulSoup更好地处理“坏的”HTML(他们的名声——lxml只是没有那么响亮)。如果您不想学习lxml API,它也为BeautifulSoup提供了一个兼容API


没有理由再使用BeautifulSoup了,除非你使用的是Google App Engine或其他不允许使用纯Python的应用程序。

有一个优秀的ScrAPI。请看以下屏幕:

或者,如果您喜欢简单,相应的ASCICASTS:


还有一个ruby版本的Mechanize。谢谢你的支持。看起来很酷