ApacheStorm与Hadoop的比较

ApacheStorm与Hadoop的比较,hadoop,streaming,apache-storm,Hadoop,Streaming,Apache Storm,Storm与Hadoop相比如何?Hadoop似乎是开源大规模批处理的实际标准,Storm比Hadoop有什么优势吗?还是完全不同 你为什么不说出你的意见呢 Twitter风暴被吹捧为实时Hadoop。这更像是为了方便消费而采取的营销手段 它们表面上很相似,因为它们都是分布式应用程序解决方案。除了典型的分布式架构元素,如主/从、基于动物园管理员的协调之外,对我来说,这种比较是不可能的 Twitter更像是一条处理数据的管道。管道是连接接收数据、计算和交付输出的各种计算节点的纽带。(这里的

Storm与Hadoop相比如何?Hadoop似乎是开源大规模批处理的实际标准,Storm比Hadoop有什么优势吗?还是完全不同

你为什么不说出你的意见呢

Twitter风暴被吹捧为实时Hadoop。这更像是为了方便消费而采取的营销手段

它们表面上很相似,因为它们都是分布式应用程序解决方案。除了典型的分布式架构元素,如主/从、基于动物园管理员的协调之外,对我来说,这种比较是不可能的

Twitter更像是一条处理数据的管道。管道是连接接收数据、计算和交付输出的各种计算节点的纽带。(这里的行话是喷口和螺栓)将这个类比扩展到复杂的管线布线,当需要时可以重新设计,你会得到Twitter风暴

在nutshell中,它处理数据。没有延迟

Hadoop在这方面的不同主要是因为HDFS。它是一种面向分布式存储的解决方案,能够承受多种规模(磁盘、机器、机架等)的停机

构建M/R是为了利用HDFS上的数据本地化来分发计算作业。总之,它们不能提供实时数据处理的设施。但在查看大型数据时,这并不总是一个要求。(大海捞针的比喻)

简而言之,Twitter Storm是一个分布式实时数据处理解决方案。我认为我们不应该比较它们。推特之所以建立它,是因为它需要一个设施来处理小推特,但数量庞大且实时的推特


请参阅:如果您被迫将其与某些东西进行比较,基本上,它们都用于分析大数据,但Storm用于实时处理,Hadoop用于批处理

这是一个非常好的风暴介绍,我发现:

现在,通过批处理+实时(伪实时)处理,它们应该相互补充,而不是进行比较。有一个相应的视频演示-

我使用Storm已经有一段时间了,现在我放弃了这项非常好的技术,转而使用了一项惊人的技术:Spark(),它为开发人员提供了一个统一的API,用于批处理或流处理(微批处理)以及机器学习和图形处理

值得一试。

Storm适用于快速数据(实时),而Hadoop适用于大数据(预先存在的大量数据)。Storm不能处理大数据,但它可以生成大数据作为输出

ApacheStorm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限的数据流,实现Hadoop对批处理的实时处理

由于Hadoop生态系统中存在许多子系统,我们必须根据特定系统的业务需求和可行性选择正确的子系统

Hadoop MapReduce对于一次批处理一个作业非常有效。这就是为什么Hadoop被广泛用作数据仓库工具而不是数据分析工具的原因

因为这个问题只与“风暴”和“Hadoop”有关,所以请看一看——金融服务、电信、零售、制造、运输

  • Hadoop MapReduce最适合批处理
  • Storm是一个完整的流处理引擎,可用于实时数据分析,延迟时间为亚秒 看看这个,比较一下Hadoop、Storm和Spark。它解释了相同点和不同点

    它可以用下面的图片进行总结(摘自
    dezyre
    文章)


    +1,完全同意。只是一个小提示:Twitter并没有建立它,而是建立了它。BackType最初创建了它。@Johndoo:谢谢。我完全不知道它的起源。很好地类比了改变拓扑的管道。由于问题已经解决,我将添加我的意见作为评论:只需将Storm vs.Hadoop视为STDIN处理vs.文件处理。以字数计算应用程序为例,Stormie从控制台读取您的输入字,而Hadooper则从您昨天创建的磁盘文件中扫描字。只是当任务量变得太大时,Storm和Hadoop都必须进行分布式。基本上,Storm擅长Hadoop所不能做的一切(实时计算)。Hadoop擅长Storm所不能做的一切(持久性)。这两个系统是互补的,Twitter现在是开源的[Summingbird |它是连接这两个系统的桥梁……这种Twitter storm架构可以在windows环境中复制吗?几乎所有东西都可以复制,但我怀疑在windows中实现这一点是否有意义,因为storm是为了“实时”的处理。你所说的“伪实时”是什么意思,请展开。没什么特别的。只是想指出“实时”实时软件有更严格的要求,包括操作系统——“实时操作系统(RTOS)就是操作系统(OS)用于服务实时应用程序请求。它必须能够在数据进入时处理数据,通常没有缓冲延迟。处理时间要求(包括任何操作系统延迟)以十分之一秒或更短的时间计量。”()。从这个意义上说,Storm的实时功能是区别于批处理系统的一种方式。我认为这个问题完全有意义,我很难理解这样一个有用的问题是如何以非建设性的方式结束的。这个问题是直接的,不需要事实、参考资料等。