Web crawler 为爬虫程序存储大量URL的最佳方法

Web crawler 为爬虫程序存储大量URL的最佳方法,web-crawler,Web Crawler,我正在编写一个定制的爬虫程序,需要知道是否对特定的url进行了爬虫,所以我不会两次添加相同的url。现在我正在使用mysql存储每个url的哈希值。但我想知道,如果我有一大组URL,比如说,数亿个,这是否会变得非常缓慢 还有其他存储URL的方法吗?人们用lucene来做这件事吗?或者有具体的数据结构来实现这一点吗?您还没有指定您的开发平台,但是有一个非常好的数据结构称为Trie() 在java、C++、C语言……中有很多实现。p> 你可能想试试伯克利DB太晚了! 但您可以使用一个示例来描述在哪里

我正在编写一个定制的爬虫程序,需要知道是否对特定的url进行了爬虫,所以我不会两次添加相同的url。现在我正在使用mysql存储每个url的哈希值。但我想知道,如果我有一大组URL,比如说,数亿个,这是否会变得非常缓慢


还有其他存储URL的方法吗?人们用lucene来做这件事吗?或者有具体的数据结构来实现这一点吗?

您还没有指定您的开发平台,但是有一个非常好的数据结构称为Trie()
在java、C++、C语言……中有很多实现。p> 你可能想试试伯克利DB

太晚了! 但您可以使用一个示例

来描述在哪里可以实现