Web crawler 新站点的爬虫/蜘蛛检测
我有使用c#和vb.net的良好开发经验,但我需要一些指导。我想开发类似蜘蛛和爬虫的搜索引擎,但我不知道如何:Web crawler 新站点的爬虫/蜘蛛检测,web-crawler,Web Crawler,我有使用c#和vb.net的良好开发经验,但我需要一些指导。我想开发类似蜘蛛和爬虫的搜索引擎,但我不知道如何: 如何检测网络中的新网站?像谷歌一样在网站启动时检测并抓取它 如何检测添加到任何网站的新页面?我可以检测和解析网站的所有页面,但这是一个耗时的过程?如何检测新添加的页面 如何检测修改的页面 以下链接可能有用 查找新页面的两种主要方法: 站点地图(谷歌这个词可以找到更多),它也可以指示页面何时更新 注意到您正在爬网的另一个页面上指向新站点/页面的链接 对于您已经知道的页面,可以使用“If
以下链接可能有用
查找新页面的两种主要方法:
然而,你的问题相当广泛,我只是先给它一个爆炸,然后当你在某个点上卡住的时候来到这里。你忘记了
java
tag。这是一个非常多样化的问题,没有表现出任何努力或任何东西。不管怎样,祝你好运检测从你已经爬网的其他站点到该站点的链接是一种策略。重复:使用站点地图,你可以找出lastmod
,changefreq
,并找到要索引的新页面。此外,谷歌并不总是“查找”新网站,而是通过