网络爬虫使用哪个数据库?在分布式环境中如何使用MySQL?

网络爬虫使用哪个数据库?在分布式环境中如何使用MySQL?,mysql,innodb,myisam,distributed-database,Mysql,Innodb,Myisam,Distributed Database,网络爬虫应该使用哪个数据库引擎,InnoDB还是MYiSAM?我有两台电脑,每台都有1TB硬盘。如果其中一台电脑已满,我希望它能自动保存到另一台电脑上,但读取的内容应转到正确的电脑上;我该怎么做?至于你问题的第一部分,这取决于你的具体实施。如果您打算使用一个受网络带宽限制的爬虫程序,那么MYiSAM可以更快。如果您正在使用多个爬虫程序,那么InnoDB将为您提供一些优势,例如事务,这可能会有所帮助 AFAIK MySQL不支持您建议的硬件配置。如果你需要大的存储空间,你可以看看MySQL集群 至

网络爬虫应该使用哪个数据库引擎,InnoDB还是MYiSAM?我有两台电脑,每台都有1TB硬盘。如果其中一台电脑已满,我希望它能自动保存到另一台电脑上,但读取的内容应转到正确的电脑上;我该怎么做?

至于你问题的第一部分,这取决于你的具体实施。如果您打算使用一个受网络带宽限制的爬虫程序,那么MYiSAM可以更快。如果您正在使用多个爬虫程序,那么InnoDB将为您提供一些优势,例如事务,这可能会有所帮助


AFAIK MySQL不支持您建议的硬件配置。如果你需要大的存储空间,你可以看看MySQL集群

至于你问题的第一部分,这取决于你的具体实施。如果您打算使用一个受网络带宽限制的爬虫程序,那么MYiSAM可以更快。如果您正在使用多个爬虫程序,那么InnoDB将为您提供一些优势,例如事务,这可能会有所帮助


AFAIK MySQL不支持您建议的硬件配置。如果你需要大的存储空间,你可以看看MySQL集群

MyISAM是首选,因为您将拥有只写操作,并且爬虫程序(即使并行运行)将被配置为(我想)对不同的域/URL进行爬网。因此,您不需要处理访问冲突


当写入大量数据时,尤其是文本!,Mysql避免事务、索引等,因为它会大大降低Mysql的运行速度。

MyISAM是首选,因为您将拥有只写操作,并且将配置爬虫程序(即使并行运行)来爬网不同的域/URL。因此,您不需要处理访问冲突


当写入大量数据时,尤其是文本!,为了避免Mysql的事务、索引等,因为它会大大降低Mysql的速度。

我使用多线程编程使用2系统进行爬网,在这种情况下,哪个是好的MyISAM?,我们如何在InnoDB中进行全文搜索?我使用多线程编程使用2系统进行爬网,在这种情况下,哪个是好的MyISAM?,我们如何在InnoDB中进行全文搜索?上一个问题可能会帮助您。上一个问题可能会帮助您