Http 将URL用作数据库密钥的最佳实践
我将编写一个爬虫程序,将结果存储在数据库(MongoDB)中 当然,使用URL作为一个可能的查询参数是很重要的。但是,这也有问题:Http 将URL用作数据库密钥的最佳实践,http,database-design,url,url-shortener,Http,Database Design,Url,Url Shortener,我将编写一个爬虫程序,将结果存储在数据库(MongoDB)中 当然,使用URL作为一个可能的查询参数是很重要的。但是,这也有问题: URL可以很长,而MongDB有一个有限的最大密钥长度 有很多内容同义词,你不知道这一点,只要抓取一页 如何处理HTTP 301、302、303、307等。存储原始URL或新位置?这对于链接缩短者来说尤其是一个问题 “最后一个.fm”问题。lastfm.com==last.fm~=lastfm.it(等),并且该站点没有使用30倍的结果代码来表示。它只提供来自多个
- URL可以很长,而MongDB有一个有限的最大密钥长度
- 有很多内容同义词,你不知道这一点,只要抓取一页
- 如何处理HTTP 301、302、303、307等。存储原始URL或新位置?这对于链接缩短者来说尤其是一个问题
- “最后一个.fm”问题。lastfm.com==last.fm~=lastfm.it(等),并且该站点没有使用30倍的结果代码来表示。它只提供来自多个域的内容李>
- 给定数据库中可能存在或不存在的任何URL,让我查询一下,看看我以前是否以合理的准确性对该文档进行过爬网李>