Hadoop有什么好处?

Hadoop有什么好处?,hadoop,Hadoop,我在读,读,读关于这项技术的书,我仍然不确定它有什么好处 1) 它似乎不太支持顺序作业,大多数作业本质上都是顺序作业。-并不是说它不能工作,而是说让它工作是非常非常笨拙的 2) 为什么不能通过负载平衡服务+第三方/自定义无sql解决方案实现这一点?NoSql解决方案(如Azure表或联邦数据库等)提供类似HDFS的功能,而map reduce可以在服务内部完成。这将提供更好的关注点分离,同时提供更好的访问,如顺序读取等等。是的,成本可能是一个问题,但如果我有一两PB的数据要通过$$$进行转换,这

我在读,读,读关于这项技术的书,我仍然不确定它有什么好处

1) 它似乎不太支持顺序作业,大多数作业本质上都是顺序作业。-并不是说它不能工作,而是说让它工作是非常非常笨拙的

2) 为什么不能通过负载平衡服务+第三方/自定义无sql解决方案实现这一点?NoSql解决方案(如Azure表或联邦数据库等)提供类似HDFS的功能,而map reduce可以在服务内部完成。这将提供更好的关注点分离,同时提供更好的访问,如顺序读取等等。是的,成本可能是一个问题,但如果我有一两PB的数据要通过$$$进行转换,这是我最不担心的问题

3) 另一件恼人的事情是将代码发送到文件系统上的本地运行。我知道这对性能有好处,但从代码组织/复杂性管理的角度来看,这很糟糕。否则ORM就不会如此流行,因为在UDF和存储过程中写入所有内容要快得多。我以为我们以前走过这条路,看看它有多糟糕

那么为什么Hadoop如此受欢迎,因为它笨重而缓慢——我不明白


请告诉我。

代码运行的位置如何影响代码组织/管理?它是透明的;这就是重点

当然,Hadoop的功能可以使用一系列其他技术的混合体来重新创建——M/R是一种方式,而不是堆栈

作业管理通过各种应用程序处理

您回答了自己关于“第三方/定制”解决方案的问题:关键是它是一个框架,可以用来消除大部分或所有非数据/应用程序特定的开发

我也从来没有在这样的环境中“$$$是我最不担心的”


我不清楚您的实际反对意见是什么。

代码部署在哪里很重要。让我问你这个。为什么是Soa?没有DLL,没有JAR,团队之间没有二进制文件。对大多数人来说,这足以弥补性能上的不足。@Alwyn我不知道你在说什么——什么二进制文件?什么代码“团队之间的船只?Hadoop在节点之间移动代码。还有依赖关系?像第三方库、运行时、虚拟机等@Alwyn一样,有许多方法可以分发依赖项,包括将它们放入HDFS中。不知道你在说什么虚拟机。无论是Hadoop还是其他分布式解决方案,运行您的代码的计算机上都必须存在运行时。不过,我不认为这些问题中有任何一个是Hadoop独有的。@Dave Thank man您的答案很好。我得到了nosql、map reduce甚至hdfs。我正在努力解决的是将代码与持久性耦合的想法。特别是将库部署到持久层。这很少是一个好主意,我不知道hadoop是否会改变这一点