Php 我如何蜘蛛我自己的网站

Php 我如何蜘蛛我自己的网站,php,web-crawler,Php,Web Crawler,我安装了一个php脚本来禁止忽略我的robots.txt文件的机器人。我想测试一下它是否工作正常。有几行PHP代码可以用来模拟一个机器人在我的网站上爬行。可能会深入“n”层,创建一个简单的结果文本文件,忽略my robots.txt文件并忽略rel=“nofollow”。您可以使用PHP简单HTML DOM解析器: //从URL或文件创建DOM $html=file\u get\u html('http://www.google.com/'); //查找所有图像 foreach($html->f

我安装了一个php脚本来禁止忽略我的robots.txt文件的机器人。我想测试一下它是否工作正常。有几行PHP代码可以用来模拟一个机器人在我的网站上爬行。可能会深入“n”层,创建一个简单的结果文本文件,忽略my robots.txt文件并忽略rel=“nofollow”。

您可以使用PHP简单HTML DOM解析器:

//从URL或文件创建DOM
$html=file\u get\u html('http://www.google.com/');
//查找所有图像
foreach($html->find('img')作为$element)
echo$element->src'
'; //查找所有链接 foreach($html->find('a')作为$element) echo$element->href
';
另见:


wget是对所问问题最简单、最经济的解决方案。对于周期性的爬行等,或者你想用大锤敲打坚果,然后看看ApacheNutch-我以前没听说过(我恐怕是个新手)。如何运行wget命令以及从何处运行?从shell运行或使用php Exec谢谢。我将其作为一个php页面运行,并得到以下错误:致命错误:调用第6ah行/home/xxxxxx/public\u html/bottest.php中未定义的函数文件_get_html()。非常感谢。我看不出来。
// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>'; 
wget -r -l4 –spider -D thesite.com http://www.thesite.com