ApacheStorm与Hadoop的比较_Hadoop_Streaming_Apache Storm

ApacheStorm与Hadoop的比较

hadoop streaming apache-storm

ApacheStorm与Hadoop的比较,hadoop,streaming,apache-storm,Hadoop,Streaming,Apache Storm,Storm与Hadoop相比如何？Hadoop似乎是开源大规模批处理的实际标准，Storm比Hadoop有什么优势吗？还是完全不同你为什么不说出你的意见呢 Twitter风暴被吹捧为实时Hadoop。这更像是为了方便消费而采取的营销手段它们表面上很相似，因为它们都是分布式应用程序解决方案。除了典型的分布式架构元素，如主/从、基于动物园管理员的协调之外，对我来说，这种比较是不可能的 Twitter更像是一条处理数据的管道。管道是连接接收数据、计算和交付输出的各种计算节点的纽带。（这里的

Storm与Hadoop相比如何？Hadoop似乎是开源大规模批处理的实际标准，Storm比Hadoop有什么优势吗？还是完全不同

你为什么不说出你的意见呢

Twitter风暴被吹捧为实时Hadoop。这更像是为了方便消费而采取的营销手段

它们表面上很相似，因为它们都是分布式应用程序解决方案。除了典型的分布式架构元素，如主/从、基于动物园管理员的协调之外，对我来说，这种比较是不可能的

Twitter更像是一条处理数据的管道。管道是连接接收数据、计算和交付输出的各种计算节点的纽带。（这里的行话是喷口和螺栓）将这个类比扩展到复杂的管线布线，当需要时可以重新设计，你会得到Twitter风暴

在nutshell中，它处理数据。没有延迟

Hadoop在这方面的不同主要是因为HDFS。它是一种面向分布式存储的解决方案，能够承受多种规模（磁盘、机器、机架等）的停机

构建M/R是为了利用HDFS上的数据本地化来分发计算作业。总之，它们不能提供实时数据处理的设施。但在查看大型数据时，这并不总是一个要求。（大海捞针的比喻）

简而言之，Twitter Storm是一个分布式实时数据处理解决方案。我认为我们不应该比较它们。推特之所以建立它，是因为它需要一个设施来处理小推特，但数量庞大且实时的推特

请参阅：如果您被迫将其与某些东西进行比较，基本上，它们都用于分析大数据，但Storm用于实时处理，Hadoop用于批处理

这是一个非常好的风暴介绍，我发现：

现在，通过批处理+实时（伪实时）处理，它们应该相互补充，而不是进行比较。有一个相应的视频演示-

我使用Storm已经有一段时间了，现在我放弃了这项非常好的技术，转而使用了一项惊人的技术：Spark（），它为开发人员提供了一个统一的API，用于批处理或流处理（微批处理）以及机器学习和图形处理

值得一试。

Storm适用于快速数据（实时），而Hadoop适用于大数据（预先存在的大量数据）。Storm不能处理大数据，但它可以生成大数据作为输出

ApacheStorm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限的数据流，实现Hadoop对批处理的实时处理

由于Hadoop生态系统中存在许多子系统，我们必须根据特定系统的业务需求和可行性选择正确的子系统

Hadoop MapReduce对于一次批处理一个作业非常有效。这就是为什么Hadoop被广泛用作数据仓库工具而不是数据分析工具的原因

因为这个问题只与“风暴”和“Hadoop”有关，所以请看一看——金融服务、电信、零售、制造、运输

Hadoop MapReduce最适合批处理

Storm是一个完整的流处理引擎，可用于实时数据分析，延迟时间为亚秒看看这个，比较一下Hadoop、Storm和Spark。它解释了相同点和不同点

它可以用下面的图片进行总结（摘自

dezyre

文章）

+1，完全同意。只是一个小提示：Twitter并没有建立它，而是建立了它。BackType最初创建了它。@Johndoo:谢谢。我完全不知道它的起源。很好地类比了改变拓扑的管道。由于问题已经解决，我将添加我的意见作为评论：只需将Storm vs.Hadoop视为STDIN处理vs.文件处理。以字数计算应用程序为例，Stormie从控制台读取您的输入字，而Hadooper则从您昨天创建的磁盘文件中扫描字。只是当任务量变得太大时，Storm和Hadoop都必须进行分布式。基本上，Storm擅长Hadoop所不能做的一切（实时计算）。Hadoop擅长Storm所不能做的一切（持久性）。这两个系统是互补的，Twitter现在是开源的[Summingbird |它是连接这两个系统的桥梁……这种Twitter storm架构可以在windows环境中复制吗？几乎所有东西都可以复制，但我怀疑在windows中实现这一点是否有意义，因为storm是为了“实时”的处理。你所说的“伪实时”是什么意思，请展开。没什么特别的。只是想指出“实时”实时软件有更严格的要求，包括操作系统——“实时操作系统（RTOS）就是操作系统（OS）用于服务实时应用程序请求。它必须能够在数据进入时处理数据，通常没有缓冲延迟。处理时间要求（包括任何操作系统延迟）以十分之一秒或更短的时间计量。”（）。从这个意义上说，Storm的实时功能是区别于批处理系统的一种方式。我认为这个问题完全有意义，我很难理解这样一个有用的问题是如何以非建设性的方式结束的。这个问题是直接的，不需要事实、参考资料等。