Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/242.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 谷歌如何抓取网页_Php - Fatal编程技术网

Php 谷歌如何抓取网页

Php 谷歌如何抓取网页,php,Php,我只是好奇谷歌是如何抓取一个页面的,我有一些代码告诉我谷歌机器人是否在我的网站上,它在哪些页面上 例如,如果谷歌正在抓取一个页面,/page.html,该页面中有链接,表示该站点的其他10个页面 它会只添加page.html作为可能的索引,因为它是它所在的页面,还是会存储page.html上的所有链接作为可能的索引?这可能会回答您的问题: 例如,如果谷歌正在抓取一个页面,/page.html,该页面中有链接,表示该站点的其他10个页面 它会只添加page.html作为可能的索引,因为它是它所在的

我只是好奇谷歌是如何抓取一个页面的,我有一些代码告诉我谷歌机器人是否在我的网站上,它在哪些页面上

例如,如果谷歌正在抓取一个页面,/page.html,该页面中有链接,表示该站点的其他10个页面


它会只添加page.html作为可能的索引,因为它是它所在的页面,还是会存储page.html上的所有链接作为可能的索引?

这可能会回答您的问题:

例如,如果谷歌正在抓取一个页面,/page.html,该页面中有链接,表示该站点的其他10个页面

它会只添加page.html作为可能的索引,因为它是它所在的页面,还是会存储page.html上的所有链接作为可能的索引

链接正是谷歌机器人在互联网上查找内容的方式。是的,它们将排队进行索引,除非它们以某种方式被排除在外(robots.txt、NOINDEX meta-tag等)。

是的,谷歌的爬虫程序将存储这些链接,以便可能进行索引,除非

Googlebot的爬网过程从网页URL列表开始, 从以前的爬网过程生成,并通过Sitemap进行了扩展 网站管理员提供的数据。当谷歌机器人访问每一个网站时 它检测每个页面上的链接(SRC和HREF)并将其添加到 它包含要爬网的页面列表