为什么Vertica/InfoBright/GreenPlum等面向列的数据库会对Hadoop大惊小怪?
向Hadoop集群提供数据并使用该集群向Vertica/InfoBright数据仓库提供数据有什么意义 所有这些供应商都在说“我们可以连接Hadoop”,但我不明白这有什么意义。在Hadoop中存储并转换为InfoBright的好处是什么?为什么不让应用程序直接存储在Infobright/Vertica DW中 谢谢大家! 我不是Hadoop用户(只是Vertica用户/DBA),但我认为答案应该是这样的: -您已经使用Hadoop进行了设置,并且希望添加一个“大数据”数据库以进行深入的分析为什么Vertica/InfoBright/GreenPlum等面向列的数据库会对Hadoop大惊小怪?,hadoop,vertica,greenplum,infobright,Hadoop,Vertica,Greenplum,Infobright,向Hadoop集群提供数据并使用该集群向Vertica/InfoBright数据仓库提供数据有什么意义 所有这些供应商都在说“我们可以连接Hadoop”,但我不明白这有什么意义。在Hadoop中存储并转换为InfoBright的好处是什么?为什么不让应用程序直接存储在Infobright/Vertica DW中 谢谢大家! 我不是Hadoop用户(只是Vertica用户/DBA),但我认为答案应该是这样的: -您已经使用Hadoop进行了设置,并且希望添加一个“大数据”数据库以进行深入的分析 -
-您希望将Hadoop用于非分析功能和处理,并使用数据库进行分析。但是它是相同的数据,因此不需要两个提要。您可能需要这样做的原因有很多 1.每TB的成本。Hadoop中的存储成本比Vertica/Netezza/greenplum等便宜得多)。您可以在Hadoop中获得长期保留,在analytics DB中获得短期数据 2.hadoop中的数据摄取功能(执行转换)在hadoop中更好 3.programatic analytics(类库),因此您可以构建高级文本分析 4.处理非结构化数据
MPP数据库在即席查询中提供了更好的性能,更好地处理结构化数据,并与传统BI工具(OLAP和报告)建立了连接,因此Hadoop基本上是对这些数据库的补充,以稍微扩展Arnon的答案,Hadoop已经被认为是一股不会消失的力量,并在组织中获得越来越大的吸引力,很多次是通过开发者的草根努力。MPP数据库擅长回答我们在设计时知道的问题,例如“每个国家每小时有多少交易?” Hadoop最初是一种新型开发人员的平台,它生活在分析师和开发人员之间,既能编写代码,又能理解数据分析和机器学习。MPP数据库(列或非列)在为这种类型的开发人员提供服务方面非常差,他们经常分析非结构化数据,使用的算法需要太多的CPU才能在数据库或太大的数据集中运行。构建某些模型所需的巨大CPU功率使得在任何类型的传统分片数据库中运行这些算法都是不可能的 我使用hadoop的个人管道通常如下所示:
回到你的问题上来,由于像我这样的人放弃了他们的工具,这些公司正在寻找在Hadoop与大数据、最酷的初创公司和尖端技术同义的时代保持相关性的方法(无论这是不是赚来的,你们可以相互讨论)此外,许多Hadoop安装都比组织MPP部署大一个数量级或更多,这意味着更多的数据在Hadoop中保留的时间更长。为什么要合并这些解决方案?Hadoop有一些很好的功能(参见下面的url)。但这些功能不包括允许业务用户运行快速分析。在Hadoop中需要30分钟到数小时的查询在Infobright中只需10秒 顺便说一句,您最初的问题并没有以MPP架构为前提,这是有充分理由的。Infobright的客户Liverail、AdSafe Media和InMobi等都将IEE与Hadoop结合使用 如果您注册一份行业白皮书,您将看到当前市场的一个视图,其中概述了Hadoop的四个建议用例。2011年9月,它由TechTarget商业应用和架构组研究总监Wayne Eckerson撰写 1)创建一个在线存档
使用Hadoop,组织不必删除数据或将数据发送到脱机存储;他们可以通过添加商品服务器来满足存储和处理需求,从而使其无限期在线。Hadoop成为满足在线存档要求的低成本替代方案 2)向数据仓库馈送数据
组织还可以使用Hadoop解析、集成和聚合大量Web或其他类型的数据,然后将其发送到数据仓库,在那里,临时用户和超级用户都可以使用熟悉的BI工具查询和分析数据。在这里,Hadoop成为了一种ETL工具,用于在大量Web数据进入公司数据仓库之前对其进行处理 3)支持分析。
大数据人群(即互联网开发人员)主要将Hadoop视为针对大量数据运行分析计算的分析引擎。要查询Hadoop,分析人员目前需要用Java或其他语言编写程序,并了解MapReduce,一种用于编写分布式(或并行)应用程序的框架。这里的优点是,分析人员在制定查询时不受SQL的限制。SQL不支持许多类型的分析,尤其是那些涉及行间计算的分析,这在Web流量分析中很常见。缺点是Hadoop是面向批处理的,不利于迭代查询 4)运行报告。
不过,Hadoop面向批处理的特性使其适合于执行定期计划的报告。组织现在可以针对原始数据运行报表,而不是针对摘要数据运行报表