Database 爬虫应用数据库系统
我正在开发一个基于java的爬虫程序。我想在我的爬虫程序中有恢复功能,用户可以随时暂停爬虫,如果某个爬虫程序崩溃,他应该能够从爬虫程序停止的点开始上一次爬虫 为此,我必须在数据库中存储所有的大纲链接(在任何页面上都可以找到链接)。我不确定哪一个数据库最适合这种系统,因为它需要从数据库快速插入和检索链接,插入和检索的频率将非常高 很少有人建议我不要像mongodb那样使用sql,但我只是想确保它是此类系统的最佳选择。是一个java爬虫程序,它还支持恢复功能。所以,如果你只是想有一个爬虫,我建议使用它。但是如果您需要在自己的爬虫程序中集成此功能,我建议您使用Berkeley DB。它是一种非常高效的基于键值的存储。您可以查看crawler4j的源代码,了解它如何使用Berkeley DB非常快速地存储和检索需要爬网的URLDatabase 爬虫应用数据库系统,database,web-crawler,Database,Web Crawler,我正在开发一个基于java的爬虫程序。我想在我的爬虫程序中有恢复功能,用户可以随时暂停爬虫,如果某个爬虫程序崩溃,他应该能够从爬虫程序停止的点开始上一次爬虫 为此,我必须在数据库中存储所有的大纲链接(在任何页面上都可以找到链接)。我不确定哪一个数据库最适合这种系统,因为它需要从数据库快速插入和检索链接,插入和检索的频率将非常高 很少有人建议我不要像mongodb那样使用sql,但我只是想确保它是此类系统的最佳选择。是一个java爬虫程序,它还支持恢复功能。所以,如果你只是想有一个爬虫,我建议使用