Netezza、Teradata、DB2并行/企业。。。对Hadoop还是其他?

Netezza、Teradata、DB2并行/企业。。。对Hadoop还是其他?,db2,data-warehouse,mapreduce,teradata,netezza,Db2,Data Warehouse,Mapreduce,Teradata,Netezza,我正在考虑在Map/Reduce解决方案(如Hadoop)之上构建一些数据仓库/查询基础设施 然而,令我震惊的是,所有的M/R工作只是重复RDBMS人员在过去20年中用并行SQL数据库解决的问题。并行SQL实现可以跨节点扩展读写操作,就像M/R一样,但还包含了常规数据库(SQL、现有集成库等)的细节 问题是:你似乎找不到那些公司的客户在网上发很多帖子。那么,这里有没有人对这类解决方案有经验,可以给我一些见解和/或链接?您还没有指定要用您的查询回答哪些问题,或者您的数据是如何构造的。在选择要使用的

我正在考虑在Map/Reduce解决方案(如Hadoop)之上构建一些数据仓库/查询基础设施

然而,令我震惊的是,所有的M/R工作只是重复RDBMS人员在过去20年中用并行SQL数据库解决的问题。并行SQL实现可以跨节点扩展读写操作,就像M/R一样,但还包含了常规数据库(SQL、现有集成库等)的细节


问题是:你似乎找不到那些公司的客户在网上发很多帖子。那么,这里有没有人对这类解决方案有经验,可以给我一些见解和/或链接?

您还没有指定要用您的查询回答哪些问题,或者您的数据是如何构造的。在选择要使用的解决方案之前,您可能需要考虑这两件事

你是对的:主要的RDBMS供应商提供集群解决方案;同时支持并行处理和高可用性。他们拥有这项技术已有一段时间了,任何拥有大量数据的企业都可能正在使用它。当你购买($$$)产品时,如果你买得起,他们会给你很多文档,并帮助你设置(更多$$$)

RDBMS适用于在线交易(OLTP);回答关于特定行的问题(玛丽住在哪里?);回答一些总结类问题(我们第一季度销售了多少,等等),尽管这些问题可以用来执行详细的总结问题(我们第一季度销售了多少,按产品、销售人员、月份和地区细分),但您通常开始对他们的限额征税(任何需要访问所有行的查询都会很慢)

对于这些类型的查询,大多数企业都有一个数据仓库,它将数据组织成多维的“多维数据集”(参见Cognos、Hyperion等)。这可能适合您所要做的事情


我没有使用MapReduce的任何经验,但我已经阅读了wikipedia的一节,因此,如果您要做的事情属于这些类别,我会继续使用它。

您没有指定您要用查询回答的问题,或者您的数据是如何结构的。在您选择要使用的解决方案之前,您可能不需要指定想想这两件事

你说得对:主要的RDBMS供应商提供群集解决方案;既可以用于并行处理,也可以用于高可用性。他们已经拥有这项技术一段时间了,任何拥有大量数据的企业都可能正在使用它。当你购买($$$)产品时,他们会提供大量文档,并帮助你进行设置(更多$$)如果你负担得起的话

RDBMS适用于在线交易(OLTP);回答有关特定行的问题(Mary住在哪里?);回答一些摘要类型的问题(我们在第一季度销售了多少等),尽管它们可以用来执行详细的摘要问题(按产品、销售人员、月份和地区细分,我们在第一季度销售了多少?),您通常会开始对他们的限额征税(任何需要访问所有行的查询都会很慢)

对于这些类型的查询,大多数企业都有一个数据仓库,它将数据组织成多维的“多维数据集”(参见Cognos、Hyperion等)。这可能适合您所要做的事情


我没有使用MapReduce的任何经验,但我已经阅读了wikipedia上的一节,因此如果您想做的事情属于这些类别,我会继续使用它。

我使用过Netezza和Hadoop。我对Infobright(一个专栏数据库)有第二手的了解

Netezza是一个真正的数据库,它实现了ACID属性,这既有成本也有好处。Netezza正在使用twinfin的新体系结构,允许更多的M/R代码在其表数据上运行。在以前版本的设备中,他们支持用户定义的函数和聚合。在新版本中,它在linux上运行SPU采用Intel处理器,这为更多的定制数据代码打开了大门。我对Netezza的体验非常积极——无论是技术还是公司

Hadoop是纯粹的map reduce计算。它不会产生ACID数据库属性的成本。因此,它实际上与Netezza不同。根据使用模式的不同,它可能比Netezza更好,当然也更便宜。Hadoop支持Hbase和Hive,可以以更低的成本为您提供所需的查询便利

我们团队中的另一位开发人员评估了Infobright,因此这是间接的,并发现负载性能较差,一些聚合速度较慢。它与Netezza有一些相似之处(例如,Netezza中使用分区图来帮助缩小扫描范围).Infobright是开源的,有社区版和受支持的企业版


关于您的特定问题,还有很多可以说的,可能超出了本论坛的讨论范围。希望这能有所帮助。

我使用过Netezza和Hadoop。并且对Infobright(一个专栏数据库)有二手知识

Netezza是一个真正的数据库,它实现了ACID属性,这既有成本也有好处。Netezza正在使用twinfin的新体系结构,允许更多的M/R代码在其表数据上运行。在以前版本的设备中,他们支持用户定义的函数和聚合。在新版本中,它在linux上运行SPU采用Intel处理器,这为更多的定制数据代码打开了大门。我对Netezza的体验非常积极——无论是技术还是公司

Hadoop是纯粹的map-reduce计算。它不会产生ACID数据库属性的成本。因此,它实际上与Netezza不同。根据使用模式,它可能更好,当然也更便宜