Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/mysql/57.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Cassandra、Hadoop Hive或MYSQL?_Mysql_Hadoop_Cassandra_Hbase - Fatal编程技术网

Cassandra、Hadoop Hive或MYSQL?

Cassandra、Hadoop Hive或MYSQL?,mysql,hadoop,cassandra,hbase,Mysql,Hadoop,Cassandra,Hbase,我正在开发一个网络爬虫,它很适合存储数据?Cassandra或Hadoop Hive或MySQL?为什么?我的MySQL数据库中有过去6个月的1TB数据,我需要对它们进行索引,我需要尽快在我的搜索中输出数据,正如我所想,它将存储更多的数据,比如10个Peta字节,因为我的爬虫运行速度很快,我需要快速执行读/写操作,我需要将其集成到我的PHP应用程序中,这取决于您的需求细节,但我认为在您的情况下,HBase将是最佳选择。 将HBase用作web爬虫数据库有很好的文档记录,BigTable白皮书中描

我正在开发一个网络爬虫,它很适合存储数据?Cassandra或Hadoop Hive或MySQL?为什么?我的MySQL数据库中有过去6个月的1TB数据,我需要对它们进行索引,我需要尽快在我的搜索中输出数据,正如我所想,它将存储更多的数据,比如10个Peta字节,因为我的爬虫运行速度很快,我需要快速执行读/写操作,我需要将其集成到我的PHP应用程序中,这取决于您的需求细节,但我认为在您的情况下,HBase将是最佳选择。

将HBase用作web爬虫数据库有很好的文档记录,BigTable白皮书中描述了HBase的使用

您正在寻找基于内容查找文档的东西——它应该基于反向索引。我认为最自然的搭配应该是


另请参阅Hadoop Lucene堆栈,以查询TB级的文档。

这取决于您的要求,如果需要实时快速分析流数据,请使用HBASE。 Cassandra最适合快速写入场景,因为它的读取速度比HBASE慢


蜂巢也是一个很好的选择。为了提高蜂箱性能,请使用黑斑羚。

所有黑斑羚。取决于你的需求,而你没有描述。