Hbase 如何存储和查询超大数据集(关系数据库之外)

Hbase 如何存储和查询超大数据集(关系数据库之外),hbase,hdfs,large-data-volumes,large-data,Hbase,Hdfs,Large Data Volumes,Large Data,我们目前面临的一个问题是如何有效地存储和检索超大数据集(数十亿)中的数据。我们一直在使用mysql,并对系统、操作系统、raid、查询、索引等进行了优化,现在希望继续前进 我需要就采用何种技术来解决数据问题做出明智的决定。我一直在研究使用HDFS的map/reduce,但也听到了有关HBase的好消息。我忍不住认为还有其他选择。是否对可用的技术进行了很好的比较,以及每种技术的优缺点是什么 如果您有每个网站的链接可以分享,我也会很感激。这是一个广泛的问题。我会尽量给你指路,每一个你都可以看看或者询

我们目前面临的一个问题是如何有效地存储和检索超大数据集(数十亿)中的数据。我们一直在使用mysql,并对系统、操作系统、raid、查询、索引等进行了优化,现在希望继续前进

我需要就采用何种技术来解决数据问题做出明智的决定。我一直在研究使用HDFS的map/reduce,但也听到了有关HBase的好消息。我忍不住认为还有其他选择。是否对可用的技术进行了很好的比较,以及每种技术的优缺点是什么


如果您有每个网站的链接可以分享,我也会很感激。

这是一个广泛的问题。我会尽量给你指路,每一个你都可以看看或者询问更多的信息。 第一种是…传统的DBs。若数据有足够的价值,你们可以拥有RAIDs和好的服务器,那个么Oracle可能是一个好的、昂贵的解决方案。TPC-H是决策支持查询的行业标准基准:它是指向最佳性能结果的链接。如您所见,RDBMS可以扩展到TB的数据。
第二种是HDFS+Map/Reduce+Hive形式的Hadoop。Hive是MapReduce之上的数据仓库解决方案。您还可以获得一些额外的好处,比如能够以原始格式存储数据并线性扩展。您将看到的一件事是索引和运行非常复杂的查询。
第三个是MPP——大规模parralel处理数据库。它们可以从几十个节点扩展到数百个节点,并具有丰富的SQL支持。例如Netezza、Greenplum、Asterdata、Vertica。在它们之间进行选择不是一项简单的任务,但如果有更精确的要求,也可以做到这一点