Web crawler 为web统计编写伪爬虫_Web Crawler

Web crawler 为web统计编写伪爬虫

web-crawler

Web crawler 为web统计编写伪爬虫,web-crawler,Web Crawler,我的任务是编写一个web伪爬虫来计算某些统计数据。我需要测量以开头的html文件的百分比，它们几乎可以做任何事情，包括限制您的请求速率。也非常好用。有一个很好的GUI和很多选项如果您正在寻找灵感，也可以使用源代码：+1 wget非常棒，我经常使用它。然而，有些人需要GUI:）能够无头运行对我来说是一个额外的好处。事实上，这是我最初的想法。我是否应该使用google的url在一个循环中从perl调用wget，然后在嵌套循环中运行wget？我没有找到如何在wget中为单个文件设置配额。我想你可以使

我的任务是编写一个web伪爬虫来计算某些统计数据。我需要测量以

开头的html文件的百分比，它们几乎可以做任何事情，包括限制您的请求速率。
也非常好用。有一个很好的GUI和很多选项
如果您正在寻找灵感，也可以使用源代码：
+1 wget非常棒，我经常使用它。然而，有些人需要GUI:）能够无头运行对我来说是一个额外的好处。事实上，这是我最初的想法。我是否应该使用google的url在一个循环中从perl调用wget，然后在嵌套循环中运行wget？我没有找到如何在wget中为单个文件设置配额。我想你可以使用--wait=SECONDS
或--random wait
，可能带有递归标志-r
。在wget停止运行之前有没有一个选项来限制爬网URL的数量（例如，爬网站点上的前100个URL）？很好，我认为这需要Cygwin。很高兴知道，正在下载…：）根据John Paulett的上述评论编辑了我的答案；）