Hbase 如何存储和查询超大数据集（关系数据库之外）_Hbase_Hdfs_Large Data Volumes_Large Data

Hbase 如何存储和查询超大数据集（关系数据库之外）

hbase

Hbase 如何存储和查询超大数据集（关系数据库之外）,hbase,hdfs,large-data-volumes,large-data,Hbase,Hdfs,Large Data Volumes,Large Data,我们目前面临的一个问题是如何有效地存储和检索超大数据集（数十亿）中的数据。我们一直在使用mysql，并对系统、操作系统、raid、查询、索引等进行了优化，现在希望继续前进我需要就采用何种技术来解决数据问题做出明智的决定。我一直在研究使用HDFS的map/reduce，但也听到了有关HBase的好消息。我忍不住认为还有其他选择。是否对可用的技术进行了很好的比较，以及每种技术的优缺点是什么如果您有每个网站的链接可以分享，我也会很感激。这是一个广泛的问题。我会尽量给你指路，每一个你都可以看看或者询

我们目前面临的一个问题是如何有效地存储和检索超大数据集（数十亿）中的数据。我们一直在使用mysql，并对系统、操作系统、raid、查询、索引等进行了优化，现在希望继续前进

我需要就采用何种技术来解决数据问题做出明智的决定。我一直在研究使用HDFS的map/reduce，但也听到了有关HBase的好消息。我忍不住认为还有其他选择。是否对可用的技术进行了很好的比较，以及每种技术的优缺点是什么

如果您有每个网站的链接可以分享，我也会很感激。

这是一个广泛的问题。我会尽量给你指路，每一个你都可以看看或者询问更多的信息。第一种是…传统的DBs。若数据有足够的价值，你们可以拥有RAIDs和好的服务器，那个么Oracle可能是一个好的、昂贵的解决方案。TPC-H是决策支持查询的行业标准基准：它是指向最佳性能结果的链接。如您所见，RDBMS可以扩展到TB的数据。
第二种是HDFS+Map/Reduce+Hive形式的Hadoop。Hive是MapReduce之上的数据仓库解决方案。您还可以获得一些额外的好处，比如能够以原始格式存储数据并线性扩展。您将看到的一件事是索引和运行非常复杂的查询。
第三个是MPP——大规模parralel处理数据库。它们可以从几十个节点扩展到数百个节点，并具有丰富的SQL支持。例如Netezza、Greenplum、Asterdata、Vertica。在它们之间进行选择不是一项简单的任务，但如果有更精确的要求，也可以做到这一点