Web crawler 新站点的爬虫/蜘蛛检测

Web crawler 新站点的爬虫/蜘蛛检测,web-crawler,Web Crawler,我有使用c#和vb.net的良好开发经验,但我需要一些指导。我想开发类似蜘蛛和爬虫的搜索引擎,但我不知道如何: 如何检测网络中的新网站?像谷歌一样在网站启动时检测并抓取它 如何检测添加到任何网站的新页面?我可以检测和解析网站的所有页面,但这是一个耗时的过程?如何检测新添加的页面 如何检测修改的页面 以下链接可能有用 查找新页面的两种主要方法: 站点地图(谷歌这个词可以找到更多),它也可以指示页面何时更新 注意到您正在爬网的另一个页面上指向新站点/页面的链接 对于您已经知道的页面,可以使用“If

我有使用c#和vb.net的良好开发经验,但我需要一些指导。我想开发类似蜘蛛和爬虫的搜索引擎,但我不知道如何:

  • 如何检测网络中的新网站?像谷歌一样在网站启动时检测并抓取它
  • 如何检测添加到任何网站的新页面?我可以检测和解析网站的所有页面,但这是一个耗时的过程?如何检测新添加的页面
  • 如何检测修改的页面

  • 以下链接可能有用


    查找新页面的两种主要方法:

  • 站点地图(谷歌这个词可以找到更多),它也可以指示页面何时更新
  • 注意到您正在爬网的另一个页面上指向新站点/页面的链接
  • 对于您已经知道的页面,可以使用“If Modified Since”HTTP头,它告诉服务器如果页面自指定日期以来没有更改,则返回304响应。如果页面没有更改,这将节省您再次下载和解析页面的时间,尽管显然您仍然需要发出请求才能找到它。这就是为什么网站地图是首选,你可以一次获得整个网站的信息。当然,网站不需要提供它们。

    我不太了解c#id,首先在google上编写一些运行网站的代码:“www.spiderthissisite.com”,并记录/locations/id,还可以制作reg-ex,查看链接页面的html,同时查找链接和文件夹位置


    然而,你的问题相当广泛,我只是先给它一个爆炸,然后当你在某个点上卡住的时候来到这里。

    你忘记了
    java
    tag。这是一个非常多样化的问题,没有表现出任何努力或任何东西。不管怎样,祝你好运检测从你已经爬网的其他站点到该站点的链接是一种策略。重复:使用站点地图,你可以找出
    lastmod
    changefreq
    ,并找到要索引的新页面。此外,谷歌并不总是“查找”新网站,而是通过