Database 爬虫应用数据库系统_Database_Web Crawler

Database 爬虫应用数据库系统

database web-crawler

Database 爬虫应用数据库系统,database,web-crawler,Database,Web Crawler,我正在开发一个基于java的爬虫程序。我想在我的爬虫程序中有恢复功能，用户可以随时暂停爬虫，如果某个爬虫程序崩溃，他应该能够从爬虫程序停止的点开始上一次爬虫为此，我必须在数据库中存储所有的大纲链接（在任何页面上都可以找到链接）。我不确定哪一个数据库最适合这种系统，因为它需要从数据库快速插入和检索链接，插入和检索的频率将非常高很少有人建议我不要像mongodb那样使用sql，但我只是想确保它是此类系统的最佳选择。是一个java爬虫程序，它还支持恢复功能。所以，如果你只是想有一个爬虫，我建议使用

我正在开发一个基于java的爬虫程序。我想在我的爬虫程序中有恢复功能，用户可以随时暂停爬虫，如果某个爬虫程序崩溃，他应该能够从爬虫程序停止的点开始上一次爬虫

为此，我必须在数据库中存储所有的大纲链接（在任何页面上都可以找到链接）。我不确定哪一个数据库最适合这种系统，因为它需要从数据库快速插入和检索链接，插入和检索的频率将非常高

很少有人建议我不要像mongodb那样使用sql，但我只是想确保它是此类系统的最佳选择。

是一个java爬虫程序，它还支持恢复功能。所以，如果你只是想有一个爬虫，我建议使用它。但是如果您需要在自己的爬虫程序中集成此功能，我建议您使用Berkeley DB。它是一种非常高效的基于键值的存储。您可以查看crawler4j的源代码，了解它如何使用Berkeley DB非常快速地存储和检索需要爬网的URL