编写更快的Python爬行器_Python_Web Crawler

编写更快的Python爬行器

python web-crawler

编写更快的Python爬行器,python,web-crawler,Python,Web Crawler,我正在用Python编写一个爬行器来爬行一个站点。问题是，我需要检查大约250万页，所以我真的需要一些帮助来优化速度我需要做的是检查页面的特定数量，以及是否发现记录到页面的链接。蜘蛛非常简单，它只需要对许多页面进行排序我对Python完全陌生，但以前使用过java和C++。我还没有开始编写它，所以任何关于库或框架的建议都会很好。我们也非常感谢您提供的任何优化提示。您可以像谷歌一样使用，通过（特别是Python:and）或传统的思路是，如果您发现程序太慢，则使用标准Python编写程序，并优

我正在用Python编写一个爬行器来爬行一个站点。问题是，我需要检查大约250万页，所以我真的需要一些帮助来优化速度

我需要做的是检查页面的特定数量，以及是否发现记录到页面的链接。蜘蛛非常简单，它只需要对许多页面进行排序

我对Python完全陌生，但以前使用过java和C++。我还没有开始编写它，所以任何关于库或框架的建议都会很好。我们也非常感谢您提供的任何优化提示。

您可以像谷歌一样使用，通过（特别是Python:and）或

传统的思路是，如果您发现程序太慢，则使用标准Python编写程序，并优化特定的慢点。您可以通过使用扩展甚至更简单的方法，降低到C来加快这些慢点

如果你只蜘蛛一个站点，考虑使用<代码> WGET -R （）。

用数百万的请求来欺骗某人的站点是不礼貌的。你可以向网站管理员索要该网站的档案吗？一旦你有了这些，你只需要简单的文本搜索。

结果存储在哪里？您可以使用的云库轻松地在服务器集群上并行执行抓取操作。

在爬网时，您会浪费大量时间等待网络请求，因此您肯定希望并行执行请求。我可能会将结果数据保存到磁盘，然后让第二个进程在文件上循环搜索术语。如果您需要额外的性能，该阶段可以轻松地分布在多台机器上。

由于您是Python新手，我认为以下内容可能会对您有所帮助：）

如果编写正则表达式是为了搜索页面中的特定模式，请尽可能地编译正则表达式并重用编译后的对象
是一个html/xml解析器，可能对您的项目有一些用处

-a

-R

wget-R.gif、.jpg、.png-R example.com的操作