hadoop会取代数据仓库吗?

hadoop会取代数据仓库吗?,hadoop,data-warehouse,Hadoop,Data Warehouse,我听说Hadoop即将取代数据仓库。所以我想知道是否有关于成功/失败率的实际案例研究,或者这里的一些开发人员是否在一个项目中工作过,在这个项目中,无论是全部还是部分都是这样做的 随着“大数据”的出现,似乎有很多关于它的炒作,我试图从虚构中找出事实 我们正在进行大规模的数据库转换,我认为这可能是一种替代解决方案。好吧,大数据初创公司有很多成功案例,特别是在AdTech,虽然这并不是“取代”旧的昂贵的专有方式,但他们只是第一次使用Hadoop。我想这就是创业的好处——没有遗留系统。从技术和数据科学的

我听说Hadoop即将取代数据仓库。所以我想知道是否有关于成功/失败率的实际案例研究,或者这里的一些开发人员是否在一个项目中工作过,在这个项目中,无论是全部还是部分都是这样做的

随着“大数据”的出现,似乎有很多关于它的炒作,我试图从虚构中找出事实


我们正在进行大规模的数据库转换,我认为这可能是一种替代解决方案。

好吧,大数据初创公司有很多成功案例,特别是在AdTech,虽然这并不是“取代”旧的昂贵的专有方式,但他们只是第一次使用Hadoop。我想这就是创业的好处——没有遗留系统。从技术和数据科学的角度来看,广告虽然从表面上看有点无聊,但却非常有趣。数据量巨大,挑战在于更有效地细分用户并竞购广告空间。这通常意味着需要一些机器学习

但不仅仅是AdTech,Hadoop还用于银行欺诈检测和各种其他交易分析

关于为什么会发生这种情况,我想总结一下我的主要经验,即使用Spark和Scala的HDFS与使用SAS、R&Teradata的传统方法的比较:

  • HDFS是一种非常有效的方法,可以以易于访问的分布式方式存储大量数据,而无需首先构建数据结构
  • HDFS不需要定制硬件,它可以在商品硬件上工作,因此每TB更便宜
  • HDFS&hadoop生态系统与动态灵活的云架构齐头并进。谷歌云和亚马逊AWS拥有如此丰富而廉价的功能,完全不需要内部DCs。没有必要购买20台功能强大的服务器和100 TB的存储空间,然后发现它们不够,或者太多,或者一天只需要1小时。使用云服务建立集群变得越来越容易,甚至有脚本可以让那些只有少量sysadm/devops经验的人实现这一点
  • Hadoop和Spark,特别是当与Scala这样的高级静态类型语言(但Java8也是OK ish)一起使用时,意味着数据科学家现在可以用R、Python和SAS这样的脚本语言做他们永远做不到的事情。首先,他们可以在一个虚拟环境中,用一种语言将建模代码与其他生产系统连接起来。想想所有用Scala编写的高速工具;Kafka、Akka、Spray、Spark、SparkStreaming、GraphX等,以及Java中的HDFS、HBase、Cassandra—现在所有这些工具都具有高度的互操作性。这意味着历史上第一次,数据分析师能够可靠地自动化分析并构建稳定的产品。它们具有所需的高级功能,但具有静态类型、FP和单元测试的可预测性和可靠性。尝试用Python构建一个大型复杂的并发系统。尝试在R或SAS中编写单元测试。试着编译你的代码,看着测试通过,然后用一种动态类型的语言总结“嘿,它工作了!让我们发布吧”
  • 这四点结合起来意味着A:存储数据现在便宜多了,B:处理数据现在便宜多了,C:人力资源成本便宜多了,因为现在你不需要几个团队分散到分析师、建模师、工程师、开发人员,你可以将这些技能混合在一起,最终制造出需要雇用更少人员的混合动力车


    事情不会一夜之间改变,目前劳动力市场主要缺少两个群体;优秀的大数据DevOps和Scala工程师/开发人员,他们的费率清楚地反映了这一点。不幸的是,尽管需求量很大,但供应量却很低。尽管我仍然猜测Hadoop用于仓储的成本要低得多,但寻找人才可能是一个巨大的成本,这限制了转型的步伐。

    我想说是的,我们目前正在尽快将数据从Teradata中迁移出来,我们将节省大量资金,并能够开始使用Spark进行一些很酷的机器学习。但我也会说,你会有很多书呆子想结束你的问题,因为它太有趣了。我觉得提出这个问题是值得的,即使我被否决或被淘汰。请把你的评论放在一个更具描述性和更充分的解释中,说明你在做什么,以及如何回答。我个人不知道还有谁试过这么做。