Web crawler 网络爬虫是否只依赖主页上的链接进行爬虫?

Web crawler 网络爬虫是否只依赖主页上的链接进行爬虫?,web-crawler,Web Crawler,我的主页有到a.html和b.html页面的链接。在与这两个页面相同的目录中,我有c.html和d.html两个页面,它们没有被任何其他页面链接到 我的问题是,webcrawlers是否仅仅因为在目录中就索引了c.html和d.html?或者他们只从主页开始链接,只索引主页加上a和b页?谢谢。大多数网络爬虫(特别是谷歌的)都是专有程序,所以你无法确定它们在细节中是如何工作的 网络爬虫的细节极其复杂。据说谷歌的爬虫(和索引器)是一个超过700兆字节的二进制可执行文件(在GCC峰会上,谷歌的人说他们

我的主页有到a.html和b.html页面的链接。在与这两个页面相同的目录中,我有c.htmld.html两个页面,它们没有被任何其他页面链接到

我的问题是,webcrawlers是否仅仅因为在目录中就索引了c.html和d.html?或者他们只从主页开始链接,只索引主页加上a和b页?谢谢。

大多数网络爬虫(特别是谷歌的)都是专有程序,所以你无法确定它们在细节中是如何工作的

网络爬虫的细节极其复杂。据说谷歌的爬虫(和索引器)是一个超过700兆字节的二进制可执行文件(在GCC峰会上,谷歌的人说他们正在编译一个如此大小的程序,我猜这就是他们的爬虫)

理论上,爬虫确实遵循链接。但你没有掌握它们。例如,一些公共邮件存档(甚至你的Gmail帐户,比如谷歌)可能指向你的
c.html
。。。即使你的主网页没有指向它。

大多数网络爬虫(尤其是谷歌的)都是专有程序,因此你无法确定它们在细节中是如何工作的

网络爬虫的细节极其复杂。据说谷歌的爬虫(和索引器)是一个超过700兆字节的二进制可执行文件(在GCC峰会上,谷歌的人说他们正在编译一个如此大小的程序,我猜这就是他们的爬虫)


理论上,爬虫确实遵循链接。但你没有掌握它们。例如,一些公共邮件存档(甚至你的Gmail帐户,比如谷歌)可能指向你的
c.html
。。。即使你的主网页没有指向它。

网络爬虫只知道链接,因此如果世界上没有人有指向c.html和d.html页面的链接,那么爬虫找到它们的可能性非常接近于0

让我们看看爬虫如何找到这些:

  • 您的主页仅指向a.html和b.html,但如果这些页面有指向c/d.html的链接,则爬虫程序最终将指向它们
  • 如果上面说的不是真的,但是你给了某人指向c/d.html的链接,并且他们将这些链接发布到了一些在线网站上,那么爬虫最终会找到它们
  • 如果你有一个站点地图,那么爬虫可能最终会找到它们

  • 这假设爬虫是“好”的,它爬行的时间足够长,可以到达包含指向c/d.html页面链接的页面。

    网络爬虫只知道链接,因此如果世界上没有人有指向c.html和d.html页面的链接,那么爬虫找到它们的可能性非常接近于0

    让我们看看爬虫如何找到这些:

  • 您的主页仅指向a.html和b.html,但如果这些页面有指向c/d.html的链接,则爬虫程序最终将指向它们
  • 如果上面说的不是真的,但是你给了某人指向c/d.html的链接,并且他们将这些链接发布到了一些在线网站上,那么爬虫最终会找到它们
  • 如果你有一个站点地图,那么爬虫可能最终会找到它们

  • 这假设爬虫程序是“好的”,并且爬虫的时间足够长,可以到达包含指向c/d.html页面的链接的页面。

    这是真的。甚至我也看到谷歌机器人抓取了一些没有href标签的URL,例如,我用简单的文本在我的页面中添加了一个虚拟链接地址,难以置信的是,谷歌机器人也跟着抓取了!这是真的。甚至我也看到谷歌机器人抓取了一些没有href标签的URL,例如,我用简单的文本在我的页面中添加了一个虚拟链接地址,难以置信的是,谷歌机器人也跟着抓取了!