Web crawler 为爬虫程序存储大量URL的最佳方法_Web Crawler

Web crawler 为爬虫程序存储大量URL的最佳方法

web-crawler

Web crawler 为爬虫程序存储大量URL的最佳方法,web-crawler,Web Crawler,我正在编写一个定制的爬虫程序，需要知道是否对特定的url进行了爬虫，所以我不会两次添加相同的url。现在我正在使用mysql存储每个url的哈希值。但我想知道，如果我有一大组URL，比如说，数亿个，这是否会变得非常缓慢还有其他存储URL的方法吗？人们用lucene来做这件事吗？或者有具体的数据结构来实现这一点吗？您还没有指定您的开发平台，但是有一个非常好的数据结构称为Trie（）在java、C++、C语言……中有很多实现。p> 你可能想试试伯克利DB太晚了！但您可以使用一个示例来描述在哪里

我正在编写一个定制的爬虫程序，需要知道是否对特定的url进行了爬虫，所以我不会两次添加相同的url。现在我正在使用mysql存储每个url的哈希值。但我想知道，如果我有一大组URL，比如说，数亿个，这是否会变得非常缓慢

还有其他存储URL的方法吗？人们用lucene来做这件事吗？或者有具体的数据结构来实现这一点吗？

您还没有指定您的开发平台，但是有一个非常好的数据结构称为Trie（）

在java、C++、C语言……中有很多实现。p> 你可能想试试伯克利DB

太晚了！但您可以使用一个示例

来描述在哪里可以实现