python中的web爬虫数据库？_Python_Database_Web Crawler

python中的web爬虫数据库？

python database web-crawler

python中的web爬虫数据库？,python,database,web-crawler,Python,Database,Web Crawler,嗨，我正在用python编写一个网络爬虫，从新闻网站（如nytimes.com）中提取新闻文章。我想知道什么将是一个好的数据库作为这个项目的后端使用提前谢谢就个人而言，我喜欢——但是其他免费的数据库，比如（或者，如果你有相当小的数据量——最多几GB——甚至是）也可以。就个人而言，我喜欢——但是其他免费的数据库，比如（或者，如果你有相当小的数据量——最多几GB——甚至是）也可以。我认为数据库本身可能是像这样的网络爬虫的一个更简单的方面如果期望高负载读取或写入数据库（例如，如果您打算同时运行多

嗨，我正在用python编写一个网络爬虫，从新闻网站（如nytimes.com）中提取新闻文章。我想知道什么将是一个好的数据库作为这个项目的后端使用

提前谢谢

就个人而言，我喜欢——但是其他免费的数据库，比如（或者，如果你有相当小的数据量——最多几GB——甚至是）也可以。

我认为数据库本身可能是像这样的网络爬虫的一个更简单的方面

如果期望高负载读取或写入数据库（例如，如果您打算同时运行多个爬虫程序），那么您将希望转向MySql，否则类似的操作可能会对您有好处。

我认为数据库本身可能是这样的web爬虫程序的一个更简单的方面

如果期望高负载读取或写入数据库（例如，如果您打算同时运行多个爬虫程序），那么您将希望转向MySql，否则类似的操作可能会对您有好处。

使用CouchDB、MongoDB或SimpleDB等文档数据库可能是一个很棒的项目

MongoDB有一个托管解决方案：。还有

如果您在Amazon Web服务上托管此服务，SimpleDB是一个不错的选择

CouCHDB是Apache基金会的一个开源包。

< P>这可能是一个伟大的项目，使用像CoucDB、MunGDB或SimuldB.<／P>这样的文档数据库。 MongoDB有一个托管解决方案：。还有

如果您在Amazon Web服务上托管此服务，SimpleDB是一个不错的选择

CouCHDB是Apache基金会的一个开源软件包。

< P>您可以查看

Firebird由核心团队开发

您可以查看

Firebird由核心团队开发

您希望数据库保存多少记录？田地是什么？数据库有多大？您希望执行哪种类型的搜索？是否会有多个用户访问数据库？以及目前有多少条记录只有很少，但基本上，我们的想法是索引特定新闻网站中的所有新闻文章，并且不会有多个用户访问数据库？您希望数据库保存多少条记录？田地是什么？数据库有多大？您希望执行哪种类型的搜索？是否会有多个用户访问数据库？以及有多少记录，目前只有很少，但基本上的想法是索引一个特定新闻网站中的所有新闻文章，不会有多个用户访问数据库+1击败我。我个人会选择MySQL而不是PostGre，但那只是因为我已经熟悉它了。没有钉子的时候不要用锤子！对于这个特定的用例，文档数据库几乎处于最佳状态：它们是可伸缩的、快速的，而且当您不必担心事务时，为什么要选择SQL数据库呢？+1比我快。我个人会选择MySQL而不是PostGre，但那只是因为我已经熟悉它了。没有钉子的时候不要用锤子！对于这个特定的用例，文档数据库几乎处于最佳状态：它们是可伸缩的、快速的，而且当您不必担心事务时，为什么要选择SQL数据库？如果记录数量增加，这些数据库能够应付什么？这就是为什么我认为爬虫程序非常适合这些数据库的部分原因。Google的底层数据库是BigTable，它的设计与我提到的数据库类似。SimpleDB对每个域有10GB的限制，对SELECT语句有2500个结果限制。我不知道CouchDB或MongoDB有任何大小限制（并不意味着它们不存在，只是我无法通过谷歌搜索找到它们）。如果记录数量增加，这些dbs能应付什么？这就是为什么我认为爬虫程序非常适合这些dbs的部分原因。Google的底层数据库是BigTable，它的设计与我提到的数据库类似。SimpleDB对每个域有10GB的限制，对SELECT语句有2500个结果限制。我不知道CouchDB或MongoDB有任何大小限制（并不意味着它们不存在，只是我无法通过谷歌搜索找到它们）。