Web crawler 什么'；这是一个很好的网络爬虫工具_Web Crawler_Robot

Web crawler 什么'；这是一个很好的网络爬虫工具

web-crawler

Web crawler 什么'；这是一个很好的网络爬虫工具,web-crawler,robot,Web Crawler,Robot,我需要索引很多网页，有什么好的webcrawler实用程序？我更希望找一个.NET可以聊天的东西，但那不是一个好东西我真正需要的是我可以提供一个站点url的东西&它将跟踪每个链接并存储内容以进行索引。非常好。它是PHP，但可能会有所帮助。HTTrack----是一款非常好的网站复制工具。效果不错。我已经用了很长时间了 Nutch是一个网络爬虫程序（crawler是您正在寻找的程序类型）----它使用顶级的搜索工具lucene。我还没有使用过它，但看起来很有趣。作者白手起家地写了这篇文章，并公布

我需要索引很多网页，有什么好的webcrawler实用程序？我更希望找一个.NET可以聊天的东西，但那不是一个好东西

我真正需要的是我可以提供一个站点url的东西&它将跟踪每个链接并存储内容以进行索引。

非常好。它是PHP，但可能会有所帮助。

HTTrack----是一款非常好的网站复制工具。效果不错。我已经用了很长时间了

Nutch是一个网络爬虫程序（crawler是您正在寻找的程序类型）----它使用顶级的搜索工具lucene。

我还没有使用过它，但看起来很有趣。作者白手起家地写了这篇文章，并公布了他的做法。它的代码也可以下载。

包含一个爬行器，可以对内容进行爬行和索引，还有一个搜索引擎可以使用它。您应该能够找到搜索aroo.Indexer.EXE代码的方法来捕获下载的内容，并从中添加您自己的自定义代码

它非常基本（包括所有源代码，并在六篇CodeProject文章中进行了解释，其中最新的一篇在这里）：爬行器遵循链接、图像映射、图像，遵守机器人指令，解析一些非HTML文件类型。它适用于单个网站（而不是整个网站）

Nutch/Lucene几乎可以肯定是一个更健壮的/商业级解决方案——但我还没有看过他们的代码。不确定你想要完成什么，但你也看到了吗

免责声明：我是Searcharoo的作者；只是在这里提供它作为一个选项。

我使用它。你可以很容易地让它抓取所有的链接，抓取所有你需要的信息，这是一个很好的选择软件赚钱

是一个开源Java爬虫程序，它提供了一个简单的Web爬虫界面。您可以在5分钟内安装多线程网络爬虫

您可以将自己的筛选器设置为访问或不访问页面（URL），并根据逻辑为每个已爬网页面定义一些操作

选择crawler4j的一些原因

多线程结构

您可以设置要爬网的深度

它是基于Java的开源软件

控制冗余链接（URL）

您可以设置要爬网的页数

您可以设置要爬网的页面大小

足够的文件

谷歌代码死了。改用Github：