Web crawler 什么';这是一个很好的网络爬虫工具

Web crawler 什么';这是一个很好的网络爬虫工具,web-crawler,robot,Web Crawler,Robot,我需要索引很多网页,有什么好的webcrawler实用程序?我更希望找一个.NET可以聊天的东西,但那不是一个好东西 我真正需要的是我可以提供一个站点url的东西&它将跟踪每个链接并存储内容以进行索引。非常好。它是PHP,但可能会有所帮助。HTTrack----是一款非常好的网站复制工具。效果不错。我已经用了很长时间了 Nutch是一个网络爬虫程序(crawler是您正在寻找的程序类型)----它使用顶级的搜索工具lucene。我还没有使用过它,但看起来很有趣。作者白手起家地写了这篇文章,并公布

我需要索引很多网页,有什么好的webcrawler实用程序?我更希望找一个.NET可以聊天的东西,但那不是一个好东西

我真正需要的是我可以提供一个站点url的东西&它将跟踪每个链接并存储内容以进行索引。

非常好。它是PHP,但可能会有所帮助。

HTTrack----是一款非常好的网站复制工具。效果不错。我已经用了很长时间了


Nutch是一个网络爬虫程序(crawler是您正在寻找的程序类型)----它使用顶级的搜索工具lucene。

我还没有使用过它,但看起来很有趣。作者白手起家地写了这篇文章,并公布了他的做法。它的代码也可以下载。

包含一个爬行器,可以对内容进行爬行和索引,还有一个搜索引擎可以使用它。您应该能够找到搜索aroo.Indexer.EXE代码的方法来捕获下载的内容,并从中添加您自己的自定义代码

它非常基本(包括所有源代码,并在六篇CodeProject文章中进行了解释,其中最新的一篇在这里):爬行器遵循链接、图像映射、图像,遵守机器人指令,解析一些非HTML文件类型。它适用于单个网站(而不是整个网站)

Nutch/Lucene几乎可以肯定是一个更健壮的/商业级解决方案——但我还没有看过他们的代码。不确定你想要完成什么,但你也看到了吗

免责声明:我是Searcharoo的作者;只是在这里提供它作为一个选项。

我使用它。你可以很容易地让它抓取所有的链接,抓取所有你需要的信息,这是一个很好的选择 软件赚钱

是一个开源Java爬虫程序,它提供了一个简单的Web爬虫界面。您可以在5分钟内安装多线程网络爬虫

您可以将自己的筛选器设置为访问或不访问页面(URL),并根据逻辑为每个已爬网页面定义一些操作

选择crawler4j的一些原因

  • 多线程结构
  • 您可以设置要爬网的深度
  • 它是基于Java的开源软件
  • 控制冗余链接(URL)
  • 您可以设置要爬网的页数
  • 您可以设置要爬网的页面大小
  • 足够的文件

  • 谷歌代码死了。改用Github: