Php 利用多线程技术改进网络爬虫/蜘蛛_Php_Web Crawler

Php 利用多线程技术改进网络爬虫/蜘蛛

php web-crawler

Php 利用多线程技术改进网络爬虫/蜘蛛,php,web-crawler,Php,Web Crawler,我已经开始学习网络爬虫，在下面一篇文章的帮助下，我构建了这个简单的爬虫建议使用多线程技术来提高网络爬虫的速度我想知道是否有人可以帮助我了解更多关于多线程的知识，甚至可以将其应用到下面的爬虫程序中此外，如果您有任何其他建议或改进，以改善这个爬虫请随时分享代码如下： error_reporting( E_ERROR ); define( "CRAWL_LIMIT_PER_DOMAIN", 50 ); $domains = array(); $urls = array(); funct

我已经开始学习网络爬虫，在下面一篇文章的帮助下，我构建了这个简单的爬虫

建议使用多线程技术来提高网络爬虫的速度

我想知道是否有人可以帮助我了解更多关于多线程的知识，甚至可以将其应用到下面的爬虫程序中

此外，如果您有任何其他建议或改进，以改善这个爬虫请随时分享

代码如下：

error_reporting( E_ERROR );

define( "CRAWL_LIMIT_PER_DOMAIN", 50 );

$domains = array();

$urls = array();

function crawl( $url )
{
    global $domains, $urls;
    $parse = parse_url( $url );
    $domains[ $parse['host'] ]++;
    $urls[] = $url;

    $content = file_get_contents( $url );
    if ( $content === FALSE )
        return;
    else {
        // do something with content.
    }

    $content = stristr( $content, "body" );
    preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

    foreach( $matches[0] as $crawled_url ) {
        $parse = parse_url( $crawled_url );
        if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
            sleep( 1 );
            crawl( $crawled_url );
        }
    }
}

错误报告（E\u错误）；
定义（“每个域的爬网限制”，50）；
$domains=array（）；
$url=array（）；
函数爬网（$url）
{
全局$domains，$url；
$parse=parse_url（$url）；
$domains[$parse['host']]++；
$url[]=$url；
$content=file\u get\u contents（$url）；
如果（$content==FALSE）
返回；
否则{
//用内容做点什么。
}
$content=stristr（$content，“body”）；
preg_match_all（'/http:\/\/[^“\']+/'，$content，$matches）；
foreach（$将[0]匹配为$crawled\u url）{
$parse=parse_url（$crawled_url）；
if（计数（$domains[$parse['host']]）数组（$crawled\u url，$url））中每个域（&！）的爬网限制{
睡眠（1）；
爬网（$crawled_url）；
}
}
}

提前感谢您-我非常感谢您的帮助。

不管幸运与否，PHP不支持多线程。您可以做的是实现异步模式，但这意味着您必须忘记像

file\u get\u contents

这样的好的单行函数，并切换到最低级别的页面读取（使用

fsockopen

，然后在非阻塞模式下手动执行所有写入和读取操作，让其他人在特定操作需要等待时执行它们的操作），请参阅示例代码。

啊，好的。感谢您的解释和帮助！