Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/date/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web crawler 蜘蛛访问第一级中的所有链接,第二级中的所有链接,这种蜘蛛访问技术叫什么_Web Crawler - Fatal编程技术网

Web crawler 蜘蛛访问第一级中的所有链接,第二级中的所有链接,这种蜘蛛访问技术叫什么

Web crawler 蜘蛛访问第一级中的所有链接,第二级中的所有链接,这种蜘蛛访问技术叫什么,web-crawler,Web Crawler,我忘了一个蜘蛛会来的箱子的名字 first访问它在第一层上看到的所有链接。 然后访问它在第二层上看到的所有链接。 等等 这项技术有个名字…我忘了 无论如何,这是非常详尽的,显然效率低下。有更好的办法吗 我记得在夏天读过一篇关于高效抓取网页的论文(DSL或类似的东西,我不知道它代表什么)……总之,它讨论了“确定哪些URL可能包含相关信息,哪些URL应该被忽略,如注册、新帐户链接……等等”的方法 我没有读过太多的细节,如果这些东西中有任何一个引起注意,请发一个链接。听起来像是“广度优先搜索”,而不是

我忘了一个蜘蛛会来的箱子的名字

first访问它在第一层上看到的所有链接。 然后访问它在第二层上看到的所有链接。 等等

这项技术有个名字…我忘了

无论如何,这是非常详尽的,显然效率低下。有更好的办法吗

我记得在夏天读过一篇关于高效抓取网页的论文(DSL或类似的东西,我不知道它代表什么)……总之,它讨论了“确定哪些URL可能包含相关信息,哪些URL应该被忽略,如注册、新帐户链接……等等”的方法


我没有读过太多的细节,如果这些东西中有任何一个引起注意,请发一个链接。

听起来像是“广度优先搜索”,而不是“深度优先搜索”。可以说,在第一种方法中,你从侧面检查你的所有选择,而在后一种方法中,你首先在每条路径上尽可能深入地钻研。这是人工智能术语,不确定它是否在网络工具设计师中流行。无论如何,BFS会消耗大量内存,但通常在您希望找到“最佳结果”时使用,即(用您的话来说)在尽可能浅的级别上,而DFS往往使用更少的内存,但可能会错过更好的解决方案


如果您只是尝试对所有链接进行编目,请使用DFS。如果你想在最浅的链接深度找到一些东西,请使用BFS。

听起来像是“广度优先搜索”,而不是“深度优先搜索”。可以说,在第一种方法中,你从侧面检查你的所有选择,而在后一种方法中,你首先在每条路径上尽可能深入地钻研。这是人工智能术语,不确定它是否在网络工具设计师中流行。无论如何,BFS会消耗大量内存,但通常在您希望找到“最佳结果”时使用,即(用您的话来说)在尽可能浅的级别上,而DFS往往使用更少的内存,但可能会错过更好的解决方案

如果您只是尝试对所有链接进行编目,请使用DFS。如果您试图在最浅的链接深度处查找内容,请使用BFS。

广度优先搜索

在图论中,广度优先搜索(BFS)是一种搜索策略,当搜索基本上限于两种操作时:(a)访问和检查图的节点;(b) 获得访问权限以访问与当前访问的节点相邻的节点。BFS从根节点开始,检查所有相邻节点。然后依次为每个相邻节点检查未访问的相邻节点,依此类推。将其与深度优先搜索进行比较

宽度优先搜索

在图论中,广度优先搜索(BFS)是一种搜索策略,当搜索基本上限于两种操作时:(a)访问和检查图的节点;(b) 获得访问权限以访问与当前访问的节点相邻的节点。BFS从根节点开始,检查所有相邻节点。然后依次为每个相邻节点检查未访问的相邻节点,依此类推。将其与深度优先搜索进行比较