hadoop会取代数据仓库吗？_Hadoop_Data Warehouse

hadoop会取代数据仓库吗？

hadoop

hadoop会取代数据仓库吗？,hadoop,data-warehouse,Hadoop,Data Warehouse,我听说Hadoop即将取代数据仓库。所以我想知道是否有关于成功/失败率的实际案例研究，或者这里的一些开发人员是否在一个项目中工作过，在这个项目中，无论是全部还是部分都是这样做的随着“大数据”的出现，似乎有很多关于它的炒作，我试图从虚构中找出事实我们正在进行大规模的数据库转换，我认为这可能是一种替代解决方案。好吧，大数据初创公司有很多成功案例，特别是在AdTech，虽然这并不是“取代”旧的昂贵的专有方式，但他们只是第一次使用Hadoop。我想这就是创业的好处——没有遗留系统。从技术和数据科学的

我听说Hadoop即将取代数据仓库。所以我想知道是否有关于成功/失败率的实际案例研究，或者这里的一些开发人员是否在一个项目中工作过，在这个项目中，无论是全部还是部分都是这样做的

随着“大数据”的出现，似乎有很多关于它的炒作，我试图从虚构中找出事实

我们正在进行大规模的数据库转换，我认为这可能是一种替代解决方案。

好吧，大数据初创公司有很多成功案例，特别是在AdTech，虽然这并不是“取代”旧的昂贵的专有方式，但他们只是第一次使用Hadoop。我想这就是创业的好处——没有遗留系统。从技术和数据科学的角度来看，广告虽然从表面上看有点无聊，但却非常有趣。数据量巨大，挑战在于更有效地细分用户并竞购广告空间。这通常意味着需要一些机器学习

但不仅仅是AdTech，Hadoop还用于银行欺诈检测和各种其他交易分析

关于为什么会发生这种情况，我想总结一下我的主要经验，即使用Spark和Scala的HDFS与使用SAS、R&Teradata的传统方法的比较：

HDFS是一种非常有效的方法，可以以易于访问的分布式方式存储大量数据，而无需首先构建数据结构

HDFS不需要定制硬件，它可以在商品硬件上工作，因此每TB更便宜

HDFS&hadoop生态系统与动态灵活的云架构齐头并进。谷歌云和亚马逊AWS拥有如此丰富而廉价的功能，完全不需要内部DCs。没有必要购买20台功能强大的服务器和100 TB的存储空间，然后发现它们不够，或者太多，或者一天只需要1小时。使用云服务建立集群变得越来越容易，甚至有脚本可以让那些只有少量sysadm/devops经验的人实现这一点

Hadoop和Spark，特别是当与Scala这样的高级静态类型语言（但Java8也是OK ish）一起使用时，意味着数据科学家现在可以用R、Python和SAS这样的脚本语言做他们永远做不到的事情。首先，他们可以在一个虚拟环境中，用一种语言将建模代码与其他生产系统连接起来。想想所有用Scala编写的高速工具；Kafka、Akka、Spray、Spark、SparkStreaming、GraphX等，以及Java中的HDFS、HBase、Cassandra—现在所有这些工具都具有高度的互操作性。这意味着历史上第一次，数据分析师能够可靠地自动化分析并构建稳定的产品。它们具有所需的高级功能，但具有静态类型、FP和单元测试的可预测性和可靠性。尝试用Python构建一个大型复杂的并发系统。尝试在R或SAS中编写单元测试。试着编译你的代码，看着测试通过，然后用一种动态类型的语言总结“嘿，它工作了！让我们发布吧”

这四点结合起来意味着A：存储数据现在便宜多了，B：处理数据现在便宜多了，C：人力资源成本便宜多了，因为现在你不需要几个团队分散到分析师、建模师、工程师、开发人员，你可以将这些技能混合在一起，最终制造出需要雇用更少人员的混合动力车

事情不会一夜之间改变，目前劳动力市场主要缺少两个群体；优秀的大数据DevOps和Scala工程师/开发人员，他们的费率清楚地反映了这一点。不幸的是，尽管需求量很大，但供应量却很低。尽管我仍然猜测Hadoop用于仓储的成本要低得多，但寻找人才可能是一个巨大的成本，这限制了转型的步伐。

我想说是的，我们目前正在尽快将数据从Teradata中迁移出来，我们将节省大量资金，并能够开始使用Spark进行一些很酷的机器学习。但我也会说，你会有很多书呆子想结束你的问题，因为它太有趣了。我觉得提出这个问题是值得的，即使我被否决或被淘汰。请把你的评论放在一个更具描述性和更充分的解释中，说明你在做什么，以及如何回答。我个人不知道还有谁试过这么做。