Web crawler 新站点的爬虫/蜘蛛检测_Web Crawler

Web crawler 新站点的爬虫/蜘蛛检测

web-crawler

Web crawler 新站点的爬虫/蜘蛛检测,web-crawler,Web Crawler,我有使用c#和vb.net的良好开发经验，但我需要一些指导。我想开发类似蜘蛛和爬虫的搜索引擎，但我不知道如何：如何检测网络中的新网站？像谷歌一样在网站启动时检测并抓取它如何检测添加到任何网站的新页面？我可以检测和解析网站的所有页面，但这是一个耗时的过程？如何检测新添加的页面如何检测修改的页面以下链接可能有用查找新页面的两种主要方法：站点地图（谷歌这个词可以找到更多），它也可以指示页面何时更新注意到您正在爬网的另一个页面上指向新站点/页面的链接对于您已经知道的页面，可以使用“If

我有使用c#和vb.net的良好开发经验，但我需要一些指导。我想开发类似蜘蛛和爬虫的搜索引擎，但我不知道如何：

如何检测网络中的新网站？像谷歌一样在网站启动时检测并抓取它

如何检测添加到任何网站的新页面？我可以检测和解析网站的所有页面，但这是一个耗时的过程？如何检测新添加的页面

如何检测修改的页面

以下链接可能有用

查找新页面的两种主要方法：

站点地图（谷歌这个词可以找到更多），它也可以指示页面何时更新

注意到您正在爬网的另一个页面上指向新站点/页面的链接

对于您已经知道的页面，可以使用“If Modified Since”HTTP头，它告诉服务器如果页面自指定日期以来没有更改，则返回304响应。如果页面没有更改，这将节省您再次下载和解析页面的时间，尽管显然您仍然需要发出请求才能找到它。这就是为什么网站地图是首选，你可以一次获得整个网站的信息。当然，网站不需要提供它们。

我不太了解c#id，首先在google上编写一些运行网站的代码：“www.spiderthissisite.com”，并记录/locations/id，还可以制作reg-ex，查看链接页面的html，同时查找链接和文件夹位置

然而，你的问题相当广泛，我只是先给它一个爆炸，然后当你在某个点上卡住的时候来到这里。

你忘记了

java

tag。这是一个非常多样化的问题，没有表现出任何努力或任何东西。不管怎样，祝你好运检测从你已经爬网的其他站点到该站点的链接是一种策略。重复：使用站点地图，你可以找出

lastmod

，

changefreq

，并找到要索引的新页面。此外，谷歌并不总是“查找”新网站，而是通过