具有自定义文件保存功能的Java爬虫

具有自定义文件保存功能的Java爬虫,java,web-crawler,Java,Web Crawler,我正在寻找一个用Java编写的开源网络爬虫程序,除了常用的网络爬虫功能,如深度/多线程等。还能够自定义处理每种文件类型 更准确地说,当文件被下载(或即将被下载)时,我希望处理文件的保存操作。HTML文件应保存在不同的存储库中,图像应保存在其他位置,其他文件应保存在其他位置。此外,存储库可能不仅仅是一个简单的文件系统 我听说过很多关于你的事。它有能力做到这一点吗?我希望尽可能简单、快速地实现这一点。基于这样一个假设,即您需要对爬虫程序的工作方式进行大量控制,我建议您这样做。有很多,所以你可以快速了

我正在寻找一个用Java编写的开源网络爬虫程序,除了常用的网络爬虫功能,如深度/多线程等。还能够自定义处理每种文件类型

更准确地说,当文件被下载(或即将被下载)时,我希望处理文件的保存操作。HTML文件应保存在不同的存储库中,图像应保存在其他位置,其他文件应保存在其他位置。此外,存储库可能不仅仅是一个简单的文件系统


我听说过很多关于你的事。它有能力做到这一点吗?我希望尽可能简单、快速地实现这一点。

基于这样一个假设,即您需要对爬虫程序的工作方式进行大量控制,我建议您这样做。有很多,所以你可以快速了解事情是如何运作的

您可以根据资源的内容类型轻松地处理资源(看看类——它是一个对象类,包含有关获取资源的信息)


对于存储库没有任何限制。你可以随心所欲地使用任何东西。

基于这样的假设,我建议你对爬虫的工作方式有很大的控制权。有很多,所以你可以快速了解事情是如何运作的

您可以根据资源的内容类型轻松地处理资源(看看类——它是一个对象类,包含有关获取资源的信息)


对于存储库没有任何限制。你可以随心所欲。

它基本上满足了我的所有需求,但我想知道的是,
crawler4j
如何与
Nutch
竞争?它的特点够丰富吗?我的项目将随着时间的推移而扩展,我不想以后再切换到其他项目。
Nutch
看起来非常健壮,但它是一个高级爬虫程序,所以我不确定它是否是一个快速简单的解决方案。IMO和基于您的要求
crawler4j
就足够了。如果您决定使用它,请让我们知道您的项目进展如何。谢谢。我相信现在就足够了,我只是在考虑未来。当然,如果我使用它,我会给出反馈。我不得不说你的架构非常好学,我不是这个项目的作者。我只是想知道这对你是否有帮助。哦,好的。无论如何,谢谢你。我会告诉你的。它基本上有我需要的所有东西,但我想知道的是,
crawler4j
如何与
Nutch
竞争?它的特点够丰富吗?我的项目将随着时间的推移而扩展,我不想以后再切换到其他项目。
Nutch
看起来非常健壮,但它是一个高级爬虫程序,所以我不确定它是否是一个快速简单的解决方案。IMO和基于您的要求
crawler4j
就足够了。如果您决定使用它,请让我们知道您的项目进展如何。谢谢。我相信现在就足够了,我只是在考虑未来。当然,如果我使用它,我会给出反馈。我不得不说你的架构非常好学,我不是这个项目的作者。我只是想知道这对你是否有帮助。哦,好的。无论如何,谢谢你。我会让你知道的。