C# 基于.Net的web爬虫示例

C# 基于.Net的web爬虫示例,c#,.net,visual-studio-2008,web-crawler,search-engine,C#,.net,Visual Studio 2008,Web Crawler,Search Engine,我使用的是VSTS2008+C++.NET3.5。我想找到一个工具(开源)来抓取一个网站的所有网页,对于这个网站链接的任何其他域网页,我想跳过来抓取它们(我只需要这个特定域的网页)。对于已爬网的网页,我希望将它们存储到本地文件目录中 任何示例或准备使用的开放源码工具?可能就是您要寻找的。我是一篇文章的作者 默认情况下,索引会索引所有语言。没有要配置的内容 迈克 好东西,是否有基于web的界面,以便我们可以对全文分析结果进行查询?嗨,Steve,Arachnode.net对于非英语的美国语言有多

我使用的是VSTS2008+C++.NET3.5。我想找到一个工具(开源)来抓取一个网站的所有网页,对于这个网站链接的任何其他域网页,我想跳过来抓取它们(我只需要这个特定域的网页)。对于已爬网的网页,我希望将它们存储到本地文件目录中

任何示例或准备使用的开放源码工具?

可能就是您要寻找的。

我是一篇文章的作者

默认情况下,索引会索引所有语言。没有要配置的内容

  • 迈克

好东西,是否有基于web的界面,以便我们可以对全文分析结果进行查询?嗨,Steve,Arachnode.net对于非英语的美国语言有多好?是否有索引/搜索非英语美国语言(如法语、日语)的经验?这种语言需要什么插件?(我认为不同语言的关键词提取、索引和解析可能有所不同?)!我已经标记了你的回复。我很害怕我还没有使用它。(我只是在看你的问题时读到它):“Steve Haigh:你的链接上的注释被破坏了,显然维基不认为Arachnode.net的文章是“值得注意的”LOL。猜不算。有一个Web和一个服务接口来检查你的结果。将Wiki页面删除一段时间真是令人失望。这个页面出现了将近一年,直到有人标记它。尽管AN有数千个用户,但许多用户确实将AN用于商业目的。由于网络是许多企业的基础,我们的用户在公开他们获取数据的方式时有些犹豫。当然,这种链接是维基百科寻找的一个值得注意的东西。此外,我怀疑商业应用程序的知名度要高一些。此外,维基百科版主的个人选择也会影响文章的收录,因为网络爬虫类别()中的其他爬虫与is一样“引人注目”:迈克