Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/perl/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Perl访问50万页_Perl_Web Crawler_Www Mechanize - Fatal编程技术网

使用Perl访问50万页

使用Perl访问50万页,perl,web-crawler,www-mechanize,Perl,Web Crawler,Www Mechanize,目前,我正在使用Mechanize和get()方法获取每个站点,并使用content()方法检查每个主页是否有内容。 我有一个非常快的计算机+10Mbit连接,但是,检查11K站点花了9个小时,这是不可接受的,问题是get()函数的速度,很明显,它需要获取页面,有没有办法让它更快,或者禁用一些东西,因为我只需要检查主页html 谢谢,以并行方式而不是串行方式进行查询。如果我需要这样做,我会用一个过程来抓取页面。类似于,或者可能有帮助。我倾向于使用WWW::Curl(特别是)。我用它每天爬行100

目前,我正在使用Mechanize和get()方法获取每个站点,并使用content()方法检查每个主页是否有内容。 我有一个非常快的计算机+10Mbit连接,但是,检查11K站点花了9个小时,这是不可接受的,问题是get()函数的速度,很明显,它需要获取页面,有没有办法让它更快,或者禁用一些东西,因为我只需要检查主页html


谢谢,

以并行方式而不是串行方式进行查询。如果我需要这样做,我会用一个过程来抓取页面。类似于,或者可能有帮助。我倾向于使用
WWW::Curl
(特别是)。我用它每天爬行100多页。该模块是libcurl上的一个薄绑定,因此感觉有点像C-ish,但它速度快,几乎可以完成libcurl能够完成的任何事情

我不建议使用LWP::Parallel::UA,因为它有点慢,而且模块本身也没有经过很好的考虑。当我开始编写一个爬虫程序时,我最初考虑分叉LWP::Parallel::UA,但当我研究它的内部时,我决定不这么做


免责声明:我是
WWW::Curl
模块的当前维护者。

完美!!!!谢谢!。我不知道你可以用Perl进行多线程处理,在使用Perl时从来没有真正寻找过这种类型的特性,在这种情况下它真的很方便。我指的是过程。