Netezza、Teradata、DB2并行/企业。。。对Hadoop还是其他？_Db2_Data Warehouse_Mapreduce_Teradata_Netezza

Netezza、Teradata、DB2并行/企业。。。对Hadoop还是其他？

db2 mapreduce teradata

Netezza、Teradata、DB2并行/企业。。。对Hadoop还是其他？,db2,data-warehouse,mapreduce,teradata,netezza,Db2,Data Warehouse,Mapreduce,Teradata,Netezza,我正在考虑在Map/Reduce解决方案（如Hadoop）之上构建一些数据仓库/查询基础设施然而，令我震惊的是，所有的M/R工作只是重复RDBMS人员在过去20年中用并行SQL数据库解决的问题。并行SQL实现可以跨节点扩展读写操作，就像M/R一样，但还包含了常规数据库（SQL、现有集成库等）的细节问题是：你似乎找不到那些公司的客户在网上发很多帖子。那么，这里有没有人对这类解决方案有经验，可以给我一些见解和/或链接？您还没有指定要用您的查询回答哪些问题，或者您的数据是如何构造的。在选择要使用的

我正在考虑在Map/Reduce解决方案（如Hadoop）之上构建一些数据仓库/查询基础设施

然而，令我震惊的是，所有的M/R工作只是重复RDBMS人员在过去20年中用并行SQL数据库解决的问题。并行SQL实现可以跨节点扩展读写操作，就像M/R一样，但还包含了常规数据库（SQL、现有集成库等）的细节

问题是：你似乎找不到那些公司的客户在网上发很多帖子。那么，这里有没有人对这类解决方案有经验，可以给我一些见解和/或链接？

您还没有指定要用您的查询回答哪些问题，或者您的数据是如何构造的。在选择要使用的解决方案之前，您可能需要考虑这两件事

你是对的：主要的RDBMS供应商提供集群解决方案；同时支持并行处理和高可用性。他们拥有这项技术已有一段时间了，任何拥有大量数据的企业都可能正在使用它。当你购买（$$$）产品时，如果你买得起，他们会给你很多文档，并帮助你设置（更多$$$）

RDBMS适用于在线交易（OLTP）；回答关于特定行的问题（玛丽住在哪里？）；回答一些总结类问题（我们第一季度销售了多少，等等），尽管这些问题可以用来执行详细的总结问题（我们第一季度销售了多少，按产品、销售人员、月份和地区细分），但您通常开始对他们的限额征税（任何需要访问所有行的查询都会很慢）

对于这些类型的查询，大多数企业都有一个数据仓库，它将数据组织成多维的“多维数据集”（参见Cognos、Hyperion等）。这可能适合您所要做的事情

我没有使用MapReduce的任何经验，但我已经阅读了wikipedia的一节，因此，如果您要做的事情属于这些类别，我会继续使用它。

您没有指定您要用查询回答的问题，或者您的数据是如何结构的。在您选择要使用的解决方案之前，您可能不需要指定想想这两件事

你说得对：主要的RDBMS供应商提供群集解决方案；既可以用于并行处理，也可以用于高可用性。他们已经拥有这项技术一段时间了，任何拥有大量数据的企业都可能正在使用它。当你购买（$$$）产品时，他们会提供大量文档，并帮助你进行设置（更多$$）如果你负担得起的话

RDBMS适用于在线交易（OLTP）；回答有关特定行的问题（Mary住在哪里？）；回答一些摘要类型的问题（我们在第一季度销售了多少等），尽管它们可以用来执行详细的摘要问题（按产品、销售人员、月份和地区细分，我们在第一季度销售了多少？），您通常会开始对他们的限额征税（任何需要访问所有行的查询都会很慢）

对于这些类型的查询，大多数企业都有一个数据仓库，它将数据组织成多维的“多维数据集”（参见Cognos、Hyperion等）。这可能适合您所要做的事情

我没有使用MapReduce的任何经验，但我已经阅读了wikipedia上的一节，因此如果您想做的事情属于这些类别，我会继续使用它。

我使用过Netezza和Hadoop。我对Infobright（一个专栏数据库）有第二手的了解

Netezza是一个真正的数据库，它实现了ACID属性，这既有成本也有好处。Netezza正在使用twinfin的新体系结构，允许更多的M/R代码在其表数据上运行。在以前版本的设备中，他们支持用户定义的函数和聚合。在新版本中，它在linux上运行SPU采用Intel处理器，这为更多的定制数据代码打开了大门。我对Netezza的体验非常积极——无论是技术还是公司

Hadoop是纯粹的map reduce计算。它不会产生ACID数据库属性的成本。因此，它实际上与Netezza不同。根据使用模式的不同，它可能比Netezza更好，当然也更便宜。Hadoop支持Hbase和Hive，可以以更低的成本为您提供所需的查询便利

我们团队中的另一位开发人员评估了Infobright，因此这是间接的，并发现负载性能较差，一些聚合速度较慢。它与Netezza有一些相似之处（例如，Netezza中使用分区图来帮助缩小扫描范围）.Infobright是开源的，有社区版和受支持的企业版

关于您的特定问题，还有很多可以说的，可能超出了本论坛的讨论范围。希望这能有所帮助。

我使用过Netezza和Hadoop。并且对Infobright（一个专栏数据库）有二手知识

Hadoop是纯粹的map-reduce计算。它不会产生ACID数据库属性的成本。因此，它实际上与Netezza不同。根据使用模式，它可能更好，当然也更便宜