Bash 使用wget优化web抓取

Bash 使用wget优化web抓取,bash,web-scraping,wget,Bash,Web Scraping,Wget,我正在使用wget下载一个巨大的网页列表(大约70000个)。我被迫在连续两次wget之间睡眠约2秒。这需要大量时间。大约70天。我想做的是使用代理,以便显著加快进程。我正在使用一个简单的bash脚本来完成此过程。任何建议和评论都将不胜感激。第一个建议是不要使用Bash或wget。我会用蟒蛇和漂亮的汤。Wget并不是专门为刮网而设计的 其次,通过在每台机器上运行列表的一部分,将负载分散到多台机器上 因为听起来带宽是你的问题,你可以很容易地生成一些云图像,并将你的脚本扔到那些家伙身上。我下载了Be

我正在使用wget下载一个巨大的网页列表(大约70000个)。我被迫在连续两次wget之间睡眠约2秒。这需要大量时间。大约70天。我想做的是使用代理,以便显著加快进程。我正在使用一个简单的bash脚本来完成此过程。任何建议和评论都将不胜感激。

第一个建议是不要使用Bash或wget。我会用蟒蛇和漂亮的汤。Wget并不是专门为刮网而设计的

其次,通过在每台机器上运行列表的一部分,将负载分散到多台机器上


因为听起来带宽是你的问题,你可以很容易地生成一些云图像,并将你的脚本扔到那些家伙身上。

我下载了Beautiful Soup。但我认为我不需要它。我的瓶颈是将网页下载到我的机器中。一旦我有了网页,我就可以通过grep命令提取我想要的信息。我不是很熟悉使用python。它是否有任何库来优化实际的数据收集(将网页传送到您的电脑上)。带宽不是我的问题。至少不是导致当前问题的问题。我正在抓取的网站在某种程度上受到DoS保护(我想,因此我不得不等待)。我可以考虑跨多台机器或在云上部署。我推荐python的另一个原因是,这样您就不必继续执行进程和重新创建连接。python脚本可能能够重用连接,从而对服务器更加友好。。。我希望你没有做任何坏事:)谢谢。我会深入研究python。不,我没有做你认为我在做的事。:)