为什么Hadoop不是一个实时平台
我刚开始学习Hadoop,并浏览了一些网站,我经常发现 “Hadoop不是一个实时平台”即使在这样的情况下也是如此 我搞砸了这件事,我真的无法理解。有人能帮我解释一下吗为什么Hadoop不是一个实时平台,hadoop,real-time,Hadoop,Real Time,我刚开始学习Hadoop,并浏览了一些网站,我经常发现 “Hadoop不是一个实时平台”即使在这样的情况下也是如此 我搞砸了这件事,我真的无法理解。有人能帮我解释一下吗 谢谢大家,Hadoop最初是为批处理而设计的。这意味着,一次在输入中获取一个大型数据集,对其进行处理,然后编写一个大型输出。MapReduce的概念就是面向批处理而非实时的。但老实说,这只是Hadoop开始时的情况,现在您有很多机会以更实时的方式使用Hadoop 首先,我认为定义实时是很重要的。可能是您对流处理感兴趣,也可能是您
谢谢大家,Hadoop最初是为批处理而设计的。这意味着,一次在输入中获取一个大型数据集,对其进行处理,然后编写一个大型输出。MapReduce的概念就是面向批处理而非实时的。但老实说,这只是Hadoop开始时的情况,现在您有很多机会以更实时的方式使用Hadoop 首先,我认为定义实时是很重要的。可能是您对流处理感兴趣,也可能是您希望对数据运行查询以实时返回结果 对于Hadoop上的流处理,本机Hadoop不会为您提供此类功能,但您可以轻松地将其他一些项目与Hadoop集成:
- 允许您通过Thread在Hadoop集群上使用Storm
- 与HDFS集成,允许您实时处理流式数据
- fromcloudera使用HDFS,但完全绕过MapReduce,因为否则会有太多开销
- 是另一个与Hadoop集成以提供实时查询功能的项目
- 该项目旨在使蜂巢本身更具实时性