Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/334.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
python中的web爬虫数据库?_Python_Database_Web Crawler - Fatal编程技术网

python中的web爬虫数据库?

python中的web爬虫数据库?,python,database,web-crawler,Python,Database,Web Crawler,嗨,我正在用python编写一个网络爬虫,从新闻网站(如nytimes.com)中提取新闻文章。我想知道什么将是一个好的数据库作为这个项目的后端使用 提前谢谢 就个人而言,我喜欢——但是其他免费的数据库,比如(或者,如果你有相当小的数据量——最多几GB——甚至是)也可以。就个人而言,我喜欢——但是其他免费的数据库,比如(或者,如果你有相当小的数据量——最多几GB——甚至是)也可以。我认为数据库本身可能是像这样的网络爬虫的一个更简单的方面 如果期望高负载读取或写入数据库(例如,如果您打算同时运行多

嗨,我正在用python编写一个网络爬虫,从新闻网站(如nytimes.com)中提取新闻文章。我想知道什么将是一个好的数据库作为这个项目的后端使用


提前谢谢

就个人而言,我喜欢——但是其他免费的数据库,比如(或者,如果你有相当小的数据量——最多几GB——甚至是)也可以。

就个人而言,我喜欢——但是其他免费的数据库,比如(或者,如果你有相当小的数据量——最多几GB——甚至是)也可以。

我认为数据库本身可能是像这样的网络爬虫的一个更简单的方面


如果期望高负载读取或写入数据库(例如,如果您打算同时运行多个爬虫程序),那么您将希望转向MySql,否则类似的操作可能会对您有好处。

我认为数据库本身可能是这样的web爬虫程序的一个更简单的方面


如果期望高负载读取或写入数据库(例如,如果您打算同时运行多个爬虫程序),那么您将希望转向MySql,否则类似的操作可能会对您有好处。

使用CouchDB、MongoDB或SimpleDB等文档数据库可能是一个很棒的项目

MongoDB有一个托管解决方案:。还有

如果您在Amazon Web服务上托管此服务,SimpleDB是一个不错的选择


CouCHDB是Apache基金会的一个开源包。

< P>这可能是一个伟大的项目,使用像CoucDB、MunGDB或SimuldB.</P>这样的文档数据库。 MongoDB有一个托管解决方案:。还有

如果您在Amazon Web服务上托管此服务,SimpleDB是一个不错的选择

CouCHDB是Apache基金会的一个开源软件包。

< P>您可以查看

Firebird由核心团队开发

您可以查看


Firebird由核心团队开发

您希望数据库保存多少记录?田地是什么?数据库有多大?您希望执行哪种类型的搜索?是否会有多个用户访问数据库?以及目前有多少条记录只有很少,但基本上,我们的想法是索引特定新闻网站中的所有新闻文章,并且不会有多个用户访问数据库?您希望数据库保存多少条记录?田地是什么?数据库有多大?您希望执行哪种类型的搜索?是否会有多个用户访问数据库?以及有多少记录,目前只有很少,但基本上的想法是索引一个特定新闻网站中的所有新闻文章,不会有多个用户访问数据库+1击败我。我个人会选择MySQL而不是PostGre,但那只是因为我已经熟悉它了。没有钉子的时候不要用锤子!对于这个特定的用例,文档数据库几乎处于最佳状态:它们是可伸缩的、快速的,而且当您不必担心事务时,为什么要选择SQL数据库呢?+1比我快。我个人会选择MySQL而不是PostGre,但那只是因为我已经熟悉它了。没有钉子的时候不要用锤子!对于这个特定的用例,文档数据库几乎处于最佳状态:它们是可伸缩的、快速的,而且当您不必担心事务时,为什么要选择SQL数据库?如果记录数量增加,这些数据库能够应付什么?这就是为什么我认为爬虫程序非常适合这些数据库的部分原因。Google的底层数据库是BigTable,它的设计与我提到的数据库类似。SimpleDB对每个域有10GB的限制,对SELECT语句有2500个结果限制。我不知道CouchDB或MongoDB有任何大小限制(并不意味着它们不存在,只是我无法通过谷歌搜索找到它们)。如果记录数量增加,这些dbs能应付什么?这就是为什么我认为爬虫程序非常适合这些dbs的部分原因。Google的底层数据库是BigTable,它的设计与我提到的数据库类似。SimpleDB对每个域有10GB的限制,对SELECT语句有2500个结果限制。我不知道CouchDB或MongoDB有任何大小限制(并不意味着它们不存在,只是我无法通过谷歌搜索找到它们)。