Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/database/8.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Database 爬虫应用数据库系统_Database_Web Crawler - Fatal编程技术网

Database 爬虫应用数据库系统

Database 爬虫应用数据库系统,database,web-crawler,Database,Web Crawler,我正在开发一个基于java的爬虫程序。我想在我的爬虫程序中有恢复功能,用户可以随时暂停爬虫,如果某个爬虫程序崩溃,他应该能够从爬虫程序停止的点开始上一次爬虫 为此,我必须在数据库中存储所有的大纲链接(在任何页面上都可以找到链接)。我不确定哪一个数据库最适合这种系统,因为它需要从数据库快速插入和检索链接,插入和检索的频率将非常高 很少有人建议我不要像mongodb那样使用sql,但我只是想确保它是此类系统的最佳选择。是一个java爬虫程序,它还支持恢复功能。所以,如果你只是想有一个爬虫,我建议使用

我正在开发一个基于java的爬虫程序。我想在我的爬虫程序中有恢复功能,用户可以随时暂停爬虫,如果某个爬虫程序崩溃,他应该能够从爬虫程序停止的点开始上一次爬虫

为此,我必须在数据库中存储所有的大纲链接(在任何页面上都可以找到链接)。我不确定哪一个数据库最适合这种系统,因为它需要从数据库快速插入和检索链接,插入和检索的频率将非常高

很少有人建议我不要像mongodb那样使用sql,但我只是想确保它是此类系统的最佳选择。

是一个java爬虫程序,它还支持恢复功能。所以,如果你只是想有一个爬虫,我建议使用它。但是如果您需要在自己的爬虫程序中集成此功能,我建议您使用Berkeley DB。它是一种非常高效的基于键值的存储。您可以查看crawler4j的源代码,了解它如何使用Berkeley DB非常快速地存储和检索需要爬网的URL