Java 支持windows增量爬网的Web爬虫程序
我需要一个开源的网络爬虫开发的java增量爬虫支持Java 支持windows增量爬网的Web爬虫程序,java,solr,web-crawler,nutch,crawler4j,Java,Solr,Web Crawler,Nutch,Crawler4j,我需要一个开源的网络爬虫开发的java增量爬虫支持 网络爬虫应该易于定制并与solr或elasticsearch集成 它应该是一个积极的,正在进一步发展和更多的特点 Aperture是一个很好的爬虫程序,它具有我提到的所有功能,但它不是一个活动的爬虫程序,并且由于许可证(如果我将其用于商业目的)的依赖性,我忽略了它 Nutch-一个支持hadoop的网络爬虫,它有更多的特性。但我浏览了很多网站和教程,没有找到合适的文档和api,可以在windows中以编程方式对其进行自定义。我可以在eclips
非常感谢您提供有用的答案。看起来非常适合:
- 它是100%用Java编写的
- 它完全在Windows上运行(不需要Cygwin或Linux/Unix虚拟机)
- 它有很好的文档记录,包括示例和提问/提出问题的论坛(github)
- 它支持增量爬网,检测修改的文档和删除的文档李>
- 它支持Solr和Elasticsearch,以及更多(通过使用其“提交者”)
- 它具有广泛的可配置性/灵活性。它很容易与之集成,并为其提供自定义特性,而不必学习复杂的插件机制(实现一个接口,将其放入类路径,等等)李>
- 它的发展非常活跃
它还有许多其他你没有列出的功能,比如在发送到搜索引擎之前操纵文档内容的能力。它还支持站点地图、机器人规则等。我邀请您试一试:非常感谢@Pascal Essibre