Php 如何使用简单的HTMLDOM制作合适的爬虫程序
我正在尝试使用简单的HTMLDOM解析器创建爬虫程序。 一切正常,但当我从网站上查看统计数据时,它显示了以下内容Php 如何使用简单的HTMLDOM制作合适的爬虫程序,php,simple-html-dom,Php,Simple Html Dom,我正在尝试使用简单的HTMLDOM解析器创建爬虫程序。 一切正常,但当我从网站上查看统计数据时,它显示了以下内容 未知机器人(由空用户代理字符串标识) 未知机器人(由“bot”标识,后跟空格或以下字符之一+:,.;/-) 我只想使用它作为合适的爬虫名称和链接回到爬虫 我在这里遗漏了什么,请检查下面的代码 <?php include 'config.php'; include 'simple_html_dom.php'; set_time_limit(9000); $context = s
<?php
include 'config.php';
include 'simple_html_dom.php';
set_time_limit(9000);
$context = stream_context_create();
stream_context_set_params($context, array('user_agent' => 'Mozilla/5.0 (compatible; My-bot/1.0; +https://mydomain.tld/bot'));
$html = file_get_html("https://www.google.com/", 0, $context);
foreach($html->find('a') as $link)
{
$linkHref = $link->href;
$linkHtml = file_get_html('http://example.com'.$linkHref);
foreach($linkHtml->find('title') as $title2)
{
$title2 = $title2->plaintext;
$title[] = $conn->real_escape_string(trim($title2));
echo $title2.'<br>';
}
}
?>
ifecho$html代码>问题不是数据解析的方式,我知道如何解析数据问题只是,在抓取某些网站时如何显示正确的bot名称。提供给我链接可能是我会帮你提供什么链接?我的问题是当我抓取一些网站时显示正确的机器人名称,问题不是一些链接。那个ini\u set
并没有任何作用。谷歌file\u get\u html用户代理
what ifecho$html代码>问题不是数据解析的方式,我知道如何解析数据问题只是,在抓取某些网站时如何显示正确的bot名称。提供给我链接可能是我会帮你提供什么链接?我的问题是当我抓取一些网站时显示正确的机器人名称,问题不是一些链接。那个ini\u set
并没有任何作用。谷歌file\u get\u html用户代理