Cassandra、Hadoop Hive或MYSQL?
我正在开发一个网络爬虫,它很适合存储数据?Cassandra或Hadoop Hive或MySQL?为什么?我的MySQL数据库中有过去6个月的1TB数据,我需要对它们进行索引,我需要尽快在我的搜索中输出数据,正如我所想,它将存储更多的数据,比如10个Peta字节,因为我的爬虫运行速度很快,我需要快速执行读/写操作,我需要将其集成到我的PHP应用程序中,这取决于您的需求细节,但我认为在您的情况下,HBase将是最佳选择。Cassandra、Hadoop Hive或MYSQL?,mysql,hadoop,cassandra,hbase,Mysql,Hadoop,Cassandra,Hbase,我正在开发一个网络爬虫,它很适合存储数据?Cassandra或Hadoop Hive或MySQL?为什么?我的MySQL数据库中有过去6个月的1TB数据,我需要对它们进行索引,我需要尽快在我的搜索中输出数据,正如我所想,它将存储更多的数据,比如10个Peta字节,因为我的爬虫运行速度很快,我需要快速执行读/写操作,我需要将其集成到我的PHP应用程序中,这取决于您的需求细节,但我认为在您的情况下,HBase将是最佳选择。 将HBase用作web爬虫数据库有很好的文档记录,BigTable白皮书中描
将HBase用作web爬虫数据库有很好的文档记录,BigTable白皮书中描述了HBase的使用 您正在寻找基于内容查找文档的东西——它应该基于反向索引。我认为最自然的搭配应该是
另请参阅Hadoop Lucene堆栈,以查询TB级的文档。这取决于您的要求,如果需要实时快速分析流数据,请使用HBASE。 Cassandra最适合快速写入场景,因为它的读取速度比HBASE慢
蜂巢也是一个很好的选择。为了提高蜂箱性能,请使用黑斑羚。所有黑斑羚。取决于你的需求,而你没有描述。