Java 支持windows增量爬网的Web爬虫程序

Java 支持windows增量爬网的Web爬虫程序,java,solr,web-crawler,nutch,crawler4j,Java,Solr,Web Crawler,Nutch,Crawler4j,我需要一个开源的网络爬虫开发的java增量爬虫支持 网络爬虫应该易于定制并与solr或elasticsearch集成 它应该是一个积极的,正在进一步发展和更多的特点 Aperture是一个很好的爬虫程序,它具有我提到的所有功能,但它不是一个活动的爬虫程序,并且由于许可证(如果我将其用于商业目的)的依赖性,我忽略了它 Nutch-一个支持hadoop的网络爬虫,它有更多的特性。但我浏览了很多网站和教程,没有找到合适的文档和api,可以在windows中以编程方式对其进行自定义。我可以在eclips

我需要一个开源的网络爬虫开发的java增量爬虫支持

  • 网络爬虫应该易于定制并与solr或elasticsearch集成

  • 它应该是一个积极的,正在进一步发展和更多的特点

  • Aperture是一个很好的爬虫程序,它具有我提到的所有功能,但它不是一个活动的爬虫程序,并且由于许可证(如果我将其用于商业目的)的依赖性,我忽略了它

  • Nutch-一个支持hadoop的网络爬虫,它有更多的特性。但我浏览了很多网站和教程,没有找到合适的文档和api,可以在windows中以编程方式对其进行自定义。我可以在eclipse中编辑代码,但在运行MapReduce作业时会导致许多错误。nutch没有像aperture那样的JavaAPI可以实现

  • Crawl4j是一个很好的网络爬虫程序,但它没有增量爬虫功能,我也没有检查许可证问题

  • 是否有任何其他爬虫程序具有我提到的所有功能,或者是否有任何方法可以根据我的要求使用上述任何一个爬虫程序


    非常感谢您提供有用的答案。

    看起来非常适合:

    • 它是100%用Java编写的
    • 它完全在Windows上运行(不需要Cygwin或Linux/Unix虚拟机)
    • 它有很好的文档记录,包括示例和提问/提出问题的论坛(github)
    • 它支持增量爬网,检测修改的文档和删除的文档
    • 它支持Solr和Elasticsearch,以及更多(通过使用其“提交者”)
    • 它具有广泛的可配置性/灵活性。它很容易与之集成,并为其提供自定义特性,而不必学习复杂的插件机制(实现一个接口,将其放入类路径,等等)
    • 它的发展非常活跃
    它由一家由企业搜索专业人士组成的公司Norconex维护。问题得到迅速解决。2.0.0版正在大量开发中,很快带来了许多新功能(语言检测、文档分割等)

    这是GPL,但如果GPL对您有问题,Norconex将提供商业许可证


    它还有许多其他你没有列出的功能,比如在发送到搜索引擎之前操纵文档内容的能力。它还支持站点地图、机器人规则等。我邀请您试一试:

    非常感谢@Pascal Essibre