为什么Hadoop不是一个实时平台

为什么Hadoop不是一个实时平台,hadoop,real-time,Hadoop,Real Time,我刚开始学习Hadoop,并浏览了一些网站,我经常发现 “Hadoop不是一个实时平台”即使在这样的情况下也是如此 我搞砸了这件事,我真的无法理解。有人能帮我解释一下吗 谢谢大家,Hadoop最初是为批处理而设计的。这意味着,一次在输入中获取一个大型数据集,对其进行处理,然后编写一个大型输出。MapReduce的概念就是面向批处理而非实时的。但老实说,这只是Hadoop开始时的情况,现在您有很多机会以更实时的方式使用Hadoop 首先,我认为定义实时是很重要的。可能是您对流处理感兴趣,也可能是您

我刚开始学习Hadoop,并浏览了一些网站,我经常发现

“Hadoop不是一个实时平台”即使在这样的情况下也是如此

我搞砸了这件事,我真的无法理解。有人能帮我解释一下吗


谢谢大家,Hadoop最初是为批处理而设计的。这意味着,一次在输入中获取一个大型数据集,对其进行处理,然后编写一个大型输出。MapReduce的概念就是面向批处理而非实时的。但老实说,这只是Hadoop开始时的情况,现在您有很多机会以更实时的方式使用Hadoop

首先,我认为定义实时是很重要的。可能是您对流处理感兴趣,也可能是您希望对数据运行查询以实时返回结果

对于Hadoop上的流处理,本机Hadoop不会为您提供此类功能,但您可以轻松地将其他一些项目与Hadoop集成:

  • 允许您通过Thread在Hadoop集群上使用Storm
  • 与HDFS集成,允许您实时处理流式数据
对于实时查询,还有几个使用Hadoop的项目:

  • fromcloudera使用HDFS,但完全绕过MapReduce,因为否则会有太多开销
  • 是另一个与Hadoop集成以提供实时查询功能的项目
  • 该项目旨在使蜂巢本身更具实时性
也许还有其他项目可以列入“使Hadoop实时化”的名单,但这些都是最有名的项目

因此,正如您所看到的,Hadoop正越来越朝着实时的方向发展,即使它不是为此而设计的,您也有很多机会将其扩展到实时目的