使用Perl访问50万页_Perl_Web Crawler_Www Mechanize

使用Perl访问50万页

perl web-crawler

使用Perl访问50万页,perl,web-crawler,www-mechanize,Perl,Web Crawler,Www Mechanize,目前，我正在使用Mechanize和get（）方法获取每个站点，并使用content（）方法检查每个主页是否有内容。我有一个非常快的计算机+10Mbit连接，但是，检查11K站点花了9个小时，这是不可接受的，问题是get（）函数的速度，很明显，它需要获取页面，有没有办法让它更快，或者禁用一些东西，因为我只需要检查主页html 谢谢，以并行方式而不是串行方式进行查询。如果我需要这样做，我会用一个过程来抓取页面。类似于，或者可能有帮助。我倾向于使用WWW：：Curl（特别是）。我用它每天爬行100

目前，我正在使用Mechanize和get（）方法获取每个站点，并使用content（）方法检查每个主页是否有内容。我有一个非常快的计算机+10Mbit连接，但是，检查11K站点花了9个小时，这是不可接受的，问题是get（）函数的速度，很明显，它需要获取页面，有没有办法让它更快，或者禁用一些东西，因为我只需要检查主页html

谢谢，

以并行方式而不是串行方式进行查询。如果我需要这样做，我会用一个过程来抓取页面。类似于，或者可能有帮助。我倾向于使用

WWW：：Curl

（特别是）。我用它每天爬行100多页。该模块是libcurl上的一个薄绑定，因此感觉有点像C-ish，但它速度快，几乎可以完成libcurl能够完成的任何事情

我不建议使用LWP:：Parallel:：UA，因为它有点慢，而且模块本身也没有经过很好的考虑。当我开始编写一个爬虫程序时，我最初考虑分叉LWP:：Parallel:：UA，但当我研究它的内部时，我决定不这么做

免责声明：我是

WWW:：Curl

模块的当前维护者。

完美！！！！谢谢！。我不知道你可以用Perl进行多线程处理，在使用Perl时从来没有真正寻找过这种类型的特性，在这种情况下它真的很方便。我指的是过程。