Php 我如何蜘蛛我自己的网站_Php_Web Crawler

Php 我如何蜘蛛我自己的网站

php web-crawler

Php 我如何蜘蛛我自己的网站,php,web-crawler,Php,Web Crawler,我安装了一个php脚本来禁止忽略我的robots.txt文件的机器人。我想测试一下它是否工作正常。有几行PHP代码可以用来模拟一个机器人在我的网站上爬行。可能会深入“n”层，创建一个简单的结果文本文件，忽略my robots.txt文件并忽略rel=“nofollow”。您可以使用PHP简单HTML DOM解析器： //从URL或文件创建DOM $html=file\u get\u html（'http://www.google.com/'); //查找所有图像 foreach（$html->f

我安装了一个php脚本来禁止忽略我的robots.txt文件的机器人。我想测试一下它是否工作正常。有几行PHP代码可以用来模拟一个机器人在我的网站上爬行。可能会深入“n”层，创建一个简单的结果文本文件，忽略my robots.txt文件并忽略rel=“nofollow”。

您可以使用PHP简单HTML DOM解析器：

//从URL或文件创建DOM
$html=file\u get\u html（'http://www.google.com/');
//查找所有图像
foreach（$html->find（'img'）作为$element）
echo$element->src'
'；
//查找所有链接
foreach（$html->find（'a'）作为$element）
echo$element->href
'；

另见：

从

wget是对所问问题最简单、最经济的解决方案。对于周期性的爬行等，或者你想用大锤敲打坚果，然后看看ApacheNutch-我以前没听说过（我恐怕是个新手）。如何运行wget命令以及从何处运行？从shell运行或使用php Exec谢谢。我将其作为一个php页面运行，并得到以下错误：致命错误：调用第6ah行/home/xxxxxx/public\u html/bottest.php中未定义的函数文件_get_html（）。非常感谢。我看不出来。

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

wget -r -l4 –spider -D thesite.com http://www.thesite.com