Web crawler 网络爬虫是否只依赖主页上的链接进行爬虫？_Web Crawler

Web crawler 网络爬虫是否只依赖主页上的链接进行爬虫？

web-crawler

Web crawler 网络爬虫是否只依赖主页上的链接进行爬虫？,web-crawler,Web Crawler,我的主页有到a.html和b.html页面的链接。在与这两个页面相同的目录中，我有c.html和d.html两个页面，它们没有被任何其他页面链接到我的问题是，webcrawlers是否仅仅因为在目录中就索引了c.html和d.html？或者他们只从主页开始链接，只索引主页加上a和b页？谢谢。大多数网络爬虫（特别是谷歌的）都是专有程序，所以你无法确定它们在细节中是如何工作的网络爬虫的细节极其复杂。据说谷歌的爬虫（和索引器）是一个超过700兆字节的二进制可执行文件（在GCC峰会上，谷歌的人说他们

我的主页有到a.html和b.html页面的链接。在与这两个页面相同的目录中，我有c.html和d.html两个页面，它们没有被任何其他页面链接到
我的问题是，webcrawlers是否仅仅因为在目录中就索引了c.html和d.html？或者他们只从主页开始链接，只索引主页加上a和b页？谢谢。
大多数网络爬虫（特别是谷歌的）都是专有程序，所以你无法确定它们在细节中是如何工作的
网络爬虫的细节极其复杂。据说谷歌的爬虫（和索引器）是一个超过700兆字节的二进制可执行文件（在GCC峰会上，谷歌的人说他们正在编译一个如此大小的程序，我猜这就是他们的爬虫）
理论上，爬虫确实遵循链接。但你没有掌握它们。例如，一些公共邮件存档（甚至你的Gmail帐户，比如谷歌）可能指向你的
c.html
。。。即使你的主网页没有指向它。
大多数网络爬虫（尤其是谷歌的）都是专有程序，因此你无法确定它们在细节中是如何工作的
网络爬虫的细节极其复杂。据说谷歌的爬虫（和索引器）是一个超过700兆字节的二进制可执行文件（在GCC峰会上，谷歌的人说他们正在编译一个如此大小的程序，我猜这就是他们的爬虫）

理论上，爬虫确实遵循链接。但你没有掌握它们。例如，一些公共邮件存档（甚至你的Gmail帐户，比如谷歌）可能指向你的
c.html
。。。即使你的主网页没有指向它。
网络爬虫只知道链接，因此如果世界上没有人有指向c.html和d.html页面的链接，那么爬虫找到它们的可能性非常接近于0
让我们看看爬虫如何找到这些：

您的主页仅指向a.html和b.html，但如果这些页面有指向c/d.html的链接，则爬虫程序最终将指向它们

如果上面说的不是真的，但是你给了某人指向c/d.html的链接，并且他们将这些链接发布到了一些在线网站上，那么爬虫最终会找到它们

如果你有一个站点地图，那么爬虫可能最终会找到它们

这假设爬虫是“好”的，它爬行的时间足够长，可以到达包含指向c/d.html页面链接的页面。
网络爬虫只知道链接，因此如果世界上没有人有指向c.html和d.html页面的链接，那么爬虫找到它们的可能性非常接近于0
让我们看看爬虫如何找到这些：

您的主页仅指向a.html和b.html，但如果这些页面有指向c/d.html的链接，则爬虫程序最终将指向它们

如果上面说的不是真的，但是你给了某人指向c/d.html的链接，并且他们将这些链接发布到了一些在线网站上，那么爬虫最终会找到它们

如果你有一个站点地图，那么爬虫可能最终会找到它们

这假设爬虫程序是“好的”，并且爬虫的时间足够长，可以到达包含指向c/d.html页面的链接的页面。
这是真的。甚至我也看到谷歌机器人抓取了一些没有href标签的URL，例如，我用简单的文本在我的页面中添加了一个虚拟链接地址，难以置信的是，谷歌机器人也跟着抓取了！这是真的。甚至我也看到谷歌机器人抓取了一些没有href标签的URL，例如，我用简单的文本在我的页面中添加了一个虚拟链接地址，难以置信的是，谷歌机器人也跟着抓取了！