python中的web爬虫数据库?
嗨,我正在用python编写一个网络爬虫,从新闻网站(如nytimes.com)中提取新闻文章。我想知道什么将是一个好的数据库作为这个项目的后端使用python中的web爬虫数据库?,python,database,web-crawler,Python,Database,Web Crawler,嗨,我正在用python编写一个网络爬虫,从新闻网站(如nytimes.com)中提取新闻文章。我想知道什么将是一个好的数据库作为这个项目的后端使用 提前谢谢 就个人而言,我喜欢——但是其他免费的数据库,比如(或者,如果你有相当小的数据量——最多几GB——甚至是)也可以。就个人而言,我喜欢——但是其他免费的数据库,比如(或者,如果你有相当小的数据量——最多几GB——甚至是)也可以。我认为数据库本身可能是像这样的网络爬虫的一个更简单的方面 如果期望高负载读取或写入数据库(例如,如果您打算同时运行多
提前谢谢 就个人而言,我喜欢——但是其他免费的数据库,比如(或者,如果你有相当小的数据量——最多几GB——甚至是)也可以。就个人而言,我喜欢——但是其他免费的数据库,比如(或者,如果你有相当小的数据量——最多几GB——甚至是)也可以。我认为数据库本身可能是像这样的网络爬虫的一个更简单的方面
如果期望高负载读取或写入数据库(例如,如果您打算同时运行多个爬虫程序),那么您将希望转向MySql,否则类似的操作可能会对您有好处。我认为数据库本身可能是这样的web爬虫程序的一个更简单的方面
如果期望高负载读取或写入数据库(例如,如果您打算同时运行多个爬虫程序),那么您将希望转向MySql,否则类似的操作可能会对您有好处。使用CouchDB、MongoDB或SimpleDB等文档数据库可能是一个很棒的项目 MongoDB有一个托管解决方案:。还有 如果您在Amazon Web服务上托管此服务,SimpleDB是一个不错的选择
CouCHDB是Apache基金会的一个开源包。
< P>这可能是一个伟大的项目,使用像CoucDB、MunGDB或SimuldB.</P>这样的文档数据库。 MongoDB有一个托管解决方案:。还有 如果您在Amazon Web服务上托管此服务,SimpleDB是一个不错的选择CouCHDB是Apache基金会的一个开源软件包。
< P>您可以查看 Firebird由核心团队开发您可以查看Firebird由核心团队开发您希望数据库保存多少记录?田地是什么?数据库有多大?您希望执行哪种类型的搜索?是否会有多个用户访问数据库?以及目前有多少条记录只有很少,但基本上,我们的想法是索引特定新闻网站中的所有新闻文章,并且不会有多个用户访问数据库?您希望数据库保存多少条记录?田地是什么?数据库有多大?您希望执行哪种类型的搜索?是否会有多个用户访问数据库?以及有多少记录,目前只有很少,但基本上的想法是索引一个特定新闻网站中的所有新闻文章,不会有多个用户访问数据库+1击败我。我个人会选择MySQL而不是PostGre,但那只是因为我已经熟悉它了。没有钉子的时候不要用锤子!对于这个特定的用例,文档数据库几乎处于最佳状态:它们是可伸缩的、快速的,而且当您不必担心事务时,为什么要选择SQL数据库呢?+1比我快。我个人会选择MySQL而不是PostGre,但那只是因为我已经熟悉它了。没有钉子的时候不要用锤子!对于这个特定的用例,文档数据库几乎处于最佳状态:它们是可伸缩的、快速的,而且当您不必担心事务时,为什么要选择SQL数据库?如果记录数量增加,这些数据库能够应付什么?这就是为什么我认为爬虫程序非常适合这些数据库的部分原因。Google的底层数据库是BigTable,它的设计与我提到的数据库类似。SimpleDB对每个域有10GB的限制,对SELECT语句有2500个结果限制。我不知道CouchDB或MongoDB有任何大小限制(并不意味着它们不存在,只是我无法通过谷歌搜索找到它们)。如果记录数量增加,这些dbs能应付什么?这就是为什么我认为爬虫程序非常适合这些dbs的部分原因。Google的底层数据库是BigTable,它的设计与我提到的数据库类似。SimpleDB对每个域有10GB的限制,对SELECT语句有2500个结果限制。我不知道CouchDB或MongoDB有任何大小限制(并不意味着它们不存在,只是我无法通过谷歌搜索找到它们)。