Web crawler 站点特定搜索引擎和网络爬虫的体系结构_Web Crawler_Search Engine

Web crawler 站点特定搜索引擎和网络爬虫的体系结构

web-crawler

Web crawler 站点特定搜索引擎和网络爬虫的体系结构,web-crawler,search-engine,Web Crawler,Search Engine,有人可以让我知道一个网站特定的搜索引擎的架构，作为一个非常一般的回答，我不想要任何编码和其他东西只是作为一个理论我的第二个疑问是：为了更快地抓取网页，您使用不同的起始种子URL设置了两台不同的抓取机器。这两台爬行计算机的设置不是为了相互通信和共享数据。这是一种有效的分布式web爬网策略吗？首先，如果两台计算机没有连接，那么如何处理多次记录相同的web站点，最好将它们链接起来并使用组合资源（你可能会找到一些免费软件来做这件事，根据我自己的经验我不确定）。第二，你的问题很模糊，搜索引擎有三个主要

有人可以让我知道一个网站特定的搜索引擎的架构，作为一个非常一般的回答，我不想要任何编码和其他东西只是作为一个理论

我的第二个疑问是：为了更快地抓取网页，您使用不同的起始种子URL设置了两台不同的抓取机器。这两台爬行计算机的设置不是为了相互通信和共享数据。这是一种有效的分布式web爬网策略吗？

首先，如果两台计算机没有连接，那么如何处理多次记录相同的web站点，最好将它们链接起来并使用组合资源（你可能会找到一些免费软件来做这件事，根据我自己的经验我不确定）。

第二，你的问题很模糊，搜索引擎有三个主要部分，网络爬网，索引和数据库等等，然后是前端，用户只看到前端，通常在php中，就像你的普通网站一样。索引和数据库相关的东西是你在数据库中组织数据的地方，然后网络爬网就是你在数据库中组织数据的地方你收集数据。在这个抽象层次上确实很简单，但如果没有更详细的问题，我们真的无法深入。

第二部分听起来像是一个家庭作业。你能更具体地说明你为什么要问这些问题吗？如果你想建造一些东西，你到底想建造什么？什么建筑是的，你认为它应该有吗？