Web crawler 为web统计编写伪爬虫

Web crawler 为web统计编写伪爬虫,web-crawler,Web Crawler,我的任务是编写一个web伪爬虫来计算某些统计数据。我需要测量以开头的html文件的百分比,它们几乎可以做任何事情,包括限制您的请求速率。也非常好用。有一个很好的GUI和很多选项 如果您正在寻找灵感,也可以使用源代码:+1 wget非常棒,我经常使用它。然而,有些人需要GUI:)能够无头运行对我来说是一个额外的好处。事实上,这是我最初的想法。我是否应该使用google的url在一个循环中从perl调用wget,然后在嵌套循环中运行wget?我没有找到如何在wget中为单个文件设置配额。我想你可以使

我的任务是编写一个web伪爬虫来计算某些统计数据。我需要测量以
开头的html文件的百分比,它们几乎可以做任何事情,包括限制您的请求速率。

也非常好用。有一个很好的GUI和很多选项


如果您正在寻找灵感,也可以使用源代码:

+1 wget非常棒,我经常使用它。然而,有些人需要GUI:)能够无头运行对我来说是一个额外的好处。事实上,这是我最初的想法。我是否应该使用google的url在一个循环中从perl调用wget,然后在嵌套循环中运行wget?我没有找到如何在wget中为单个文件设置配额。我想你可以使用
--wait=SECONDS
--random wait
,可能带有递归标志
-r
。在wget停止运行之前有没有一个选项来限制爬网URL的数量(例如,爬网站点上的前100个URL)?很好,我认为这需要Cygwin。很高兴知道,正在下载…:)根据John Paulett的上述评论编辑了我的答案;)