Apache Storm_IT技术博客_编程技术问答

Apache storm 拓扑未自动终止

标签： Apache Storm

我们通过给出kill-topology方法来杀死拓扑。我们有一个疑问，那就是我们是否应该在发出kill拓扑命令的同时发出关机命令。我们只运行了一次拓扑，它工作正常。第二次，如果我们运行拓扑，它不会运行。第三次运行。我们无法解决这个问题。第二次，整个过程在未显示输出的情况下关闭。但是第三次我们得到了输出。另一个问题是进程没有在命令提示符下自动终止。请务必指导我们。您是否使用storm UI终止拓扑？如果是，那么ui上显示了什么？您所说的整个过程正在关闭是什么意思？您是否在控制台中看到任何异常？您是

Apache storm 风暴集群模式，分布式螺栓/工人负载共享

标签： Apache Storm

嗨：我将有一个大容量风暴分析任务。对我来说，我想在不同的节点/机器上分离出许多螺栓/工人来承担任务，这样每台机器都可以分担负载。我想知道如何编写bolt/workers/topology，以便它们能够相互通信。在下面的代码中，我在一台机器中提交拓扑，如何在其他机器中写入bolt/worker/config，以便拓扑能够识别其他机器的bolt/worker。我想我不能在一台机器上提交拓扑，而在其他机器上提交相同的拓扑。有关于storm worker负载共享的提示吗 import java.uti

Apache storm 风暴只需一次处理

标签： Apache Storm azure-eventhub

我正在尝试开发ApacheStorm的混合拓扑，以便通过EventHubSpout从EventHub消费。我已经看到了一些示例，但是我找不到一个示例来展示如何使用EventHubSpoot使用数据，以及如何调试从这个Spoot接收流的其他螺栓。问题是我希望能够在本地环境中调试我的C Bolt代码

Apache storm 如何重新平衡Storm Trident拓扑

标签： Apache Storm trident

从文档链接中，我可以了解到使用下面的命令可以轻松地重新平衡拓扑 storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10 但是我如何重新平衡trident拓扑，因为在trident拓扑中，我们不能用名称标记过滤器/函数（螺栓），所以我如何增加/减少并行性计数？或者有没有一种方法可以使用乘法器增加/减少特定拓扑中所有组件的并行数？让我回答我自己的问题如果是三叉戟喷口和螺栓，则自动命名，名称为b-0、b-1、b-2。这表示

Apache storm Apache storm-使用storm群集映射拓扑

标签： Apache Storm

我读了很多有关风暴的网站。但我仍然无法将拓扑完美地映射到风暴群中请帮助我理解这一点在风暴群中有这样的术语主管工作节点工作处理器工人槽执行者任务在拓扑中，有喷口插销此外，还可以进行配置女工平行性所以任何人都请把这些事情联系起来帮助我我想知道，每个喷口/螺栓都是act executer，还是任务。如果给出并行性提示，则哪个实体的计数将增加。如果设置了num workers，那么该计数是哪一个所有这些都需要用风暴群来绘制。我已经在一个项目中工作过

Apache storm 使用apache storm在localCluster模式下从1G文件读取数据时出错

标签： Apache Storm

嗨，我正在使用storm和本地集群模式进行开发。我运行了一个包含喷口和两个螺栓的简单代码，代码示例从日志文件中计算单词。代码示例url: 该代码可以完美地处理小日志文件（7.3M），但当我尝试运行大日志文件（100M-1000M）时，会遇到异常我设置了一个很长的延迟，直到集群崩溃。我可能会错过一些配置选项吗例外情况： 11326 [Thread-6] INFO backtype.storm.daemon.supervisor - Launching worker with assi

Apache storm 绝地武士“；“意外的结局”；例外？

标签： Apache Storm jedis

我在ApacheStorm应用程序中使用绝地，经常看到以下异常我怀疑这是由于Storm中的并行性造成的，但我不明白为什么会出现这种异常我有多个从绝地那里获取数据的“闪电”实例。每个实例都有自己的绝地服务器地图实例和每个绝地服务器地图实例因此，我异步调用具有相同池配置的不同JedisPool实例。这样做安全吗？是否要使用不同的独立实例并发查询同一端点？如果是这样的话，有什么建议可以解释为什么我会看到下面的例外情况吗 Unexpected end of stream.. Retrying..

Apache storm 限制Apache Storm中每个工作节点的内存使用

标签： Apache Storm

我想限制Storm多节点群集中每个工作节点的内存使用。例如，在512mb ram的工作节点中，我希望storm使用最大256mb worker.childopts:“-Xmx256m” 根据我的理解，上述配置用于为节点中的每个工作进程设置内存。有什么方法可以限制整个内存。storm使用的内存是插槽数次工作内存加主管内存。因此，如果定义了一个辅助插槽，worker.childopts设置为-Xmx256m，supervisor.childopts设置为-Xmx128m，则每个storm work

Apache storm 我想在本地模式下运行apache storm，但无法激活UI

标签： Apache Storm nimbus

正如上面所说，我可以毫无问题地激活nimbus和supervisor，但由于某种原因，当我运行nimbus UI时，UI会完全卡住下面是我的错误消息 org.apache.storm.utils.NimbusLeaderNotFoundException: Could not find leader nimbus from seed hosts ["127.0.0.1"]. Did you specify a valid list of nimbus hosts for config nimb

Apache storm 我不知道'；我不明白是什么'；这意味着，如果消息处理过程必须只执行一次，则应使用trident

标签： Apache Storm trident

我不明白如果消息处理必须只执行一次，那么应该使用三叉戟是什么意思在BaseRichSpoot上使用ack（）和fail（）只能处理一次消息吗？如果我不需要trident的功能（例如groupping、jonning…），我可以使用BaseRich吗？Storm支持“至少一次”流程，因为失败的消息将从一开始就被再次处理，这将导致一些重复三叉戟是支持“一次到位”流程的一种方式所以，如果你在暴风雨中只需要处理一次信息，你就必须使用trident

Apache storm 风暴喷口周期逻辑

标签： Apache Storm

我想刷新Storm spout缓存中的状态。我能够成功地在带有Tick tuple的bolt中实现这一点。如果能知道是否有类似的模式可以使用，或者有其他方式可以周期性地醒来做一些事情，那就太好了。我可能会有一个计时器来做这件事。这会导致Storm框架出现任何并发问题吗我不相信里面有什么东西，但看看我们是如何在卡夫卡的喷口里做出承诺的基本上，我们在提交时设置时间戳，在调用nextTuple时检查时间戳。如果时间戳在过去足够远，我们提交并重置时间戳这样做意味着您不必担心并发性。Storm将从同

Apache storm 在运行时重新加载Storm配置

标签： Apache Storm

我有一个在storm configuration map中加载的配置参数，如何在运行时的每个特定时间段更新/重新加载这些配置而不重新启动拓扑？我认为您最好将配置放在storm configuration map之外的其他位置。当辅助进程启动时，拓扑配置将与拓扑一起分发给辅助进程。我不知道更新它的方法，更新它可能需要杀死worker，因为Storm组件通常使用prepare方法中的配置，该方法仅在worker启动时运行如果将配置放在其他地方（例如，工作人员可以访问的REST端点上，或者像Redi

Apache storm 在暴风雨中禁用自动背压

标签： Apache Storm

在以前版本的Storm中，似乎可以通过设置topology.backpressure.enable到false来禁用自动背压。但是，对于Storm的最新版本（我使用的是Storm 2.1.0），此选项已被删除（或尚未完全删除）。在的源代码中，我看到了以下代码片段： /** * Whether to enable backpressure in for a certain topology. * * @deprecated: In Storm 2.0. Retained for enabli

Apache storm supervisor[错误]初始化服务器mk supervisor时出错

标签： Apache Storm topology

我在一台生产服务器上设置了storm，它工作得很好，直到我突然断电。现在，每当我尝试推送拓扑时，我在初始化服务器mk supervisor时都会收到supervisor error supervisor[error]error。Storm ui nolonger显示我的工人数量（过去是4）；现在是0。我知道主管不再工作正常，但重新安装主管并不能解决问题。我以前的设置有这个问题，导致我重新进行整个设置以使其正常工作。但我不能在主管失败时继续进行设置 2014-04-06 23:59:48 sup

Apache storm 在远程Storm群集中配置streamparse

标签： Apache Storm

在streamparse中配置远程群集时有点困惑。streamparse在localhost中运行良好。但是，请不要忘记如何设置群集，my config.json是： { "library": "", "topology_specs": "topologies/", "virtualenv_specs": "virtualenvs/", "envs": { "prod": { "user": "nandaraj",

Apache storm 无法访问风暴日志文件

标签： Apache Storm

我正在尝试让ApacheKafka-Storm管道工作，但由于我没有收到任何元组，我认为最好查看日志。我在docker compose中启动了我的整个管道，包括logviewer和supervisor，当我直接访问logviewer时，它会给我一条成功消息——这意味着它启动了。尽管如此，我无法访问单个日志文件，无论是我的拓扑的日志文件，还是我的主管的日志文件，这些日志文件可能位于http://192.168.99.100:8000/api/v1/daemonlog?file=supervisor

Apache storm Strom Petrel AttributeError:'；非类型'；对象没有属性'；集团'；

标签： Apache Storm

我正在使用wordcount示例尝试Petrel，但发现以下问题： $petrel submit--config topology.yaml--logdir pwd “非类型”对象没有属性“组” 回溯（最近一次呼叫最后一次）：文件“/home/jonas/.local/lib/python2.7/site packages/petrel-0.9.4.0.3-py2.7.egg/petrel/cmdline.py”，第111行，主文件函数（**参数dict）文件“/home/jonas/.l

Apache storm Apache storm监督员定期关闭工人

标签： Apache Storm shutdownworker

我用ApacheStorm（0.9.6）和kafka Storm，zookeeper（3.4.6）制作了拓扑（每个节点3名管理员，每个节点3名管理员，操作3个拓扑）我添加了2个storm&zookeeper节点，并将topology.worker配置3更改为5。但在2个节点后，风暴主管会例行关闭工作人员。通过iostat命令检查，读写吞吐量在1mb以下。在主管日志中，如下所示 2016-10-19T15:07:38.904+0900 b.s.d.supervisor [INFO] Shu

Apache storm 风暴螺栓无输出

标签： Apache Storm

我有一个非常简单的Storm bolt，它从卡夫卡喷口获取输入，只需写入标准输出。它延伸到螺栓上。两种相关方法是： public void prepare(Map stormConfig, TopologyContext context, OutputCollector collector) { collector_ = collector; logger_.info("TestE

Apache storm 使用自定义0.9.6 RPM时出现异常（我如何发布到Storm邮件列表？）

标签： Apache Storm

我们安装了从0.9.x分支构建的自定义RPM，试图修复此错误：但在新安装上运行时，我们会看到下面的stacktrace 关于如何解决我们看到的问题，或者是否/何时将提供稳定的0.9.6版本，有什么建议吗此外，我还试图将这个问题发布到Storm邮件列表中当我将问题以电子邮件形式发送到此地址时：user@storm.apache.org，我从他们的邮件守护程序收到一封电子邮件，说我的电子邮件无法送达当我将问题发送到此地址时dev@storm.apache.org，我没有收到失败的回复，但问

Apache storm ApacheStorm是否有类似ApacheSpark的机器学习库？

标签： Apache Storm spark-streamingapache-spark-mllib

我比较了ApacheStorm和ApacheSpark流媒体，以选择分布式实时计算系统。对于这两种技术之间的比较，已经有很多讨论，例如stackoverflow.com/questions/24119897/apache-spark-vs-apache-storm/。我正在考虑选择ApacheStorm，因为它速度更快。然而，我找不到ApacheStorm是否有类似ApacheSpark的机器学习库。事实上，我想做在线机器学习，这是一个重要的要求问候, 亚西尔看看萨摩亚（）。这是Storm的第

Apache storm 未从拓扑列表中删除风暴终止的拓扑

标签： Apache Storm

我在风暴群上运行了风暴拓扑。后来拓扑结构被破坏了。但它并没有从拓扑列表中删除。因此，我无法再次使用相同的名称重新运行拓扑没有办法从列表中删除已终止的拓扑吗？当您终止拓扑时，通常会设置一个超时，等待处理当前发出的元组的时间。我认为默认值是30秒。之后，应将拓扑从列表中删除。如果不想等待，只需指定0秒的超时，并且拓扑将立即删除。当您从storm ui或命令行运行kill命令时。storm将首先在拓扑的消息超时期间停用拓扑的喷口，以允许当前正在处理的所有消息完成处理。风暴将关闭工人并清理他们的状态

Apache storm 如何清理风暴中死亡的工作日志？

标签： Apache Storm

我正在尝试清理存储在storm_log_path/workers工件中的已死亡的storm jobs日志/ 我目前的方法是使用cron job或log rotate来清理目录，但这存在一个问题，即即使作业正在运行，它也会删除日志我正在尝试使用storm configuration来完成此任务，如日志清理部分中所述。此选项应该清理日志，并且永远不会删除正在运行的作业的日志，但它不起作用我正在使用storm 1.2.3和我的storm.yaml logviewer.childopts:“-X

Apache storm ApacheStorm中具有一个工作节点的并行性

标签： Apache Storm

我正在尝试使用ApacheStorm并行化我的拓扑，但是如果我将worker的数量增加到>1，它会在worker节点上出现java.util.ConcurrentModificationException错误。它可以在本地集群中与1个工作进程一起正常工作。我想要一种方法来并行化我的拓扑，并测量不同的参数，如吞吐量、延迟、发射速率等。仅使用一个工作节点。根据您发布的堆栈跟踪，Kryo似乎正在尝试序列化ArrayList并点击ConcurrentModificationException。我会查找您

Apache storm 在螺栓中创建csv文件

标签： Apache Storm

我想将螺栓输出写入csv文件。考虑一下，如果我正在从SPUT读取数据并将其传递给BoT，则螺栓进行一些计算，然后将该数据写入CSV文件，尽管我有2个喷口和4个螺栓实例正在运行。在csv文件中，我只在多个数据下写一次列，如下所示下面但由于多个螺栓的连接，列名称在中重复 csv文件如下所示：所以任何人都知道为什么列会重复虽然我不太明白你的问题，但还是先谢谢你，最好用一个螺栓作为累加器。处理完数据后，您的CSV文件就可以归档了；您将数据发送到充当写入器的螺栓，并且只有该螺栓会写入CSV文件。

Apache storm &引用；弹簧xd“；对抗风暴

标签： Apache Storm spring-xd

我正在积极寻找实时大数据分析解决方案目前，我已经确定了一位成熟的演员Twitter Storm和一位年轻的挑战者Spring XD 有人知道SpringXD是否能像Storm那样实时处理日志事件流或twitter流吗这两种技术的已知局限性是什么？我对同一件事感兴趣，我与Spring合作多年，最近又与Storm合作。我的猜测是，它们都会表现得很好。我现在使用Storm只是因为它更成熟。但是，如果它是基于Spring的项目，我建议在Storm之前给Spring XD一次机会。如果您希望将多个模块

Apache storm 使用storm连接来自两个不同数据库的两个表

标签： Apache Storm

我是《风暴》的新手。如果我可以使用storm合并/连接来自两个不同dbs的两个表（当然，两个表有某种外键关系，只是碰巧存在于不同的dbs/系统中），有没有想法如何构建拓扑？比如有两个分开的喷口定期从两个dbs读取数据，并有一个螺栓进行连接工作这是否是storm的正确用例任何想法都很感激就像有两个分开的喷口周期性地从两个dbs读取数据，并且有一个螺栓来完成连接工作是的，这是很有可能的。Storm可以有多个喷口。而且一个bolt会消耗任意数量的输入流，进行一些处理，并可能发出新的流。通常最好

Apache storm 如何在Storm中实现此拓扑？

标签： Apache Storm

我是新来的，所以温柔点：-）我想实现一个类似于中RollingTopWords拓扑的拓扑。这个想法是计算单词发出的频率。基本上，喷口随机发出单词，第一级螺栓计算频率并传递。扭曲之处在于，我希望只有在某个螺栓中的频率超过阈值时，螺栓才会传递单词的频率。因此，例如，如果单词“Nathan”在一个时间窗口内在一个螺栓上超过了5次出现的阈值，那么所有螺栓将开始超过“Nathan”的频率我想做的是有另一层螺栓，它将有一个单词列表，已经通过了一个门槛。然后，他们将接收来自前一层螺栓的单词和频率，并仅在它

Apache storm 作为本地集群运行storm topology时，如何指定JAVA_LIBRARY_路径？

标签： Apache Storm

我想在本地集群上运行storm拓扑以进行测试。我的代码需要一些C++和Python库。我在哪里为它指定JAVA_库路径？我正在eclipse上运行它我把storm作为一个maven依赖项 <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>0

Apache storm 风暴中的本地类不兼容

标签： Apache Storm

我有一个运行了一段时间的旧拓扑。但最近，我需要更新这个拓扑结构，从而杀死了它。当我尝试将更新的拓扑提交给storm时，出现了以下异常： java.io.InvalidClassException:com.weibo.security.storm.bolt.IpCountBolt；本地类不兼容：流classdesc serialVersionUID=-5336119852024782309，本地类serialVersionUID=-57278398581060861 因此，我终止了storm进程并

Apache storm 是否需要在storm bolt中确认元组

标签： Apache Storm

这似乎令人困惑，我见过一些例子，在每个螺栓中调用元组上的ack，而在某些地方则不是这样。这方面的做法是什么？可能有什么影响？在互联网上搜索后，我从文档中找到了这一点，这在这方面非常有用喷口如何处理消息：当一个spot从消息源获取消息（如卡夫卡或红隼队列）时，将打开该消息。这意味着消息实际上尚未从队列中取出，而是处于“挂起”状态，等待消息完成的确认。处于挂起状态时，消息不会发送给队列的其他使用者。此外，如果客户机断开连接，则该客户机的所有挂起消息将放回队列打开消息时，Kestrel向客户端提

Apache storm 如何为Heron中运行的Storm拓扑设置组件的资源需求？

标签： Apache Storm heron

最近，我想将Storm拓扑迁移到Heron。但是它也有一些问题。在Heron topology中，我可以设置组件和容器的资源，例如： conf.setComponentRam("spout", ByteAmount.fromMegabytes(512)); conf.setComponentRam("split", ByteAmount.fromMegabytes(512)); conf.setComponentRam("count", ByteAmount.fromMegabytes(512

Apache storm 卡夫卡0.7.2是否与Storm 0.9.3.1兼容

标签： Apache Storm Apache Kafka

我正在考虑从Storm 0.9.0.1升级到Storm 0.9.3.1。我有很多针对卡夫卡0.7.2编写的遗留代码，我更愿意保持原样，而不是升级到卡夫卡0.8+。升级风暴会影响任何与卡夫卡交互的代码吗只要你独立运行它们，我认为就不会有任何问题

Apache storm 在Apache Storm中手动终止任务

标签： Apache Storm

出于测试/调试目的，是否有一种简单的方法可以手动终止storm集群中的任务？最好是从storm ui启用它。即使storm应该重新分配失败的任务，当它发生时测试我们的代码也是一件好事当然，在某些情况下，我可以在代码中添加“throw RuntimeException”，但它需要手动编码，也许storm体系结构中有这样的功能？任务是由执行者处理的逻辑工作单元。执行器是工作JVM中的线程。因此，手动（通过命令行中的kill）终止单个任务的唯一方法是将任务数设置为等于执行器数（默认值），并提供比执行

Apache storm Apache Zookeeper多节点群集未运行

标签： Apache Storm Apache Zookeeper

我遵循&在amazonwebservicesec2中的ubuntu14.04lts上设置我的apachestorm和apachezookeeper集群下面是我的从属节点的my zoo.cfg： ## The number of milliseconds of each tick. The length of a single tick, which i s the basic time unit used by ZooKeeper, as measured in milliseconds. #

Apache storm 如何确定何时增加单个工人的并行性或在暴风雨中增加工人？

标签： Apache Storm distributed-system

在storm网站（）中写入： “容量”指标非常有用，它告诉您bolt在过去10分钟内执行元组的时间百分比。如果此值接近1，则螺栓处于“容量”状态，是拓扑中的瓶颈。at容量螺栓的解决方案是增加该螺栓的平行度 “增加螺栓的平行度”是什么意思？添加任务？遗嘱执行人？工人如何确定何时增加单个工人的并行性或在暴风雨中增加工人？增加工人数量。原因是，即使您有4个工人和10个任务（螺栓实例），这些任务也只能并行到4个。剩下的6项任务将不得不等待处理时间。因此，通过增加插槽数量或增加连接到Nimbus的节点数

Apache storm 工作进程正在持续重新启动，同时主管中出现closedchannel异常

标签： Apache Storm Apache Zookeeper

处于其中一个主管中的工作进程正在不断重新启动，并出现Closedchannel异常。但是，如果在另一个环境中的另一个storm集群中运行相同的拓扑，那么它将在运行时不会给出任何错误下面是我从Storm UI中看到的错误。 java.lang.RuntimeException:org.apache.storm.kafka.ZkCoordinator.refresh（ZkCoordinator.java:103）org.apache.storm.kafka.ZkCoordinator.getMyM

Apache storm 喷口之间的高延迟->；螺栓和螺栓->；螺栓

标签： Apache Storm

在我的拓扑结构中，当元组从喷口传输到螺栓或从螺栓传输到螺栓时，我看到大约1-2毫秒的延迟。我使用纳秒时间戳计算延迟，因为整个拓扑在单个工作进程中运行。拓扑在集群中运行，该集群在支持生产的硬件中运行据我所知，在这种情况下，元组不需要序列化/反序列化，因为所有内容都在单个JVM中。我已将大多数喷口和螺栓的平行度提示设置为5，喷口仅以每秒100的速率生成事件。我不认为高延迟是由于事件排队造成的，因为我看不到延迟随时间而增加。内存也没有增加。日志级别设置为错误。CPU使用率在200%到300%之间

Apache storm 可以在windows操作系统中配置storm吗？如果是，请告诉我们程序

标签： Apache Storm

可以使用风暴工具处理大数据。我们得到了暴风雨的消息。但我们不知道它是否可以在windows操作系统中配置。因此，如果有人能够回答，这将对我们非常有用谢谢你是的，你可以。查看这篇文章，看看它是否能帮助您：。谢谢，我们将遵循这些步骤并通知您。我们已经完成了url中提到的所有步骤。下一步将如何实施我们的项目？我们需要有关storm工作的更多信息。您是否可以发送任何文章来了解“如何使用storm”我们已完成上述url中提到的所有步骤。url中提到的已编译拓扑。但我们没有得到拓扑的任何输出。请帮助我们了

Apache storm 风暴孵化器和日食开普勒

标签： Apache Storm

是否可以将ApacheStorm孵化器（0.9.3）导入Eclipse（开普勒），或者我应该停止浪费时间吗我尝试了以下方法，结果如下：尝试1：克隆（git克隆…）作为maven项目导入eclipse 随后出现数百个“LocalCluster无法解析为类型”和“LocalDRPC无法解析为类型”错误。我假设这与eclipse中找不到/不支持的clojure插件以及Localcluster等是用clojure编写的这一事实有关，但我不知道从哪里着手解决这个问题尝试2：克隆人 mvn ec

Apache storm 阿帕奇风暴及其战略行为

标签： Apache Storm

我正在本地机器上运行Apache Storm。然而，我看到了一种奇怪的行为。其中一个基准测试，即SOL（光速）测试，使用RandomMessageSpout生成随机元组作为源。下面是该喷嘴的nextTuple（）代码： public void nextTuple（）{ 最终字符串消息=消息[rand.nextInt（messages.length）]；如果（已启用）{ emit（新值（message）、messageCount）； messageCount++； }否则{ emit（新值（消

Apache storm 从开始设置Storm拓扑的日志级别

标签： Apache Storm

在初始化期间，我的Storm拓扑中出现了一个bug。我想将日志级别设置为从拓扑启动时开始调试我意识到有一种机制可以使用Storm UI或CLI动态设置正在运行的拓扑的日志级别，但在初始化期间拓扑中出现错误之前，我无法动态更改此设置如何静态地将日志级别设置为DEBUG，以便在初始化拓扑时可以看到更详细的日志？以下内容仅适用于Storm 2.0.0及更高版本您可以在拓扑jar中包含一个log4j2配置文件。然后需要在拓扑配置中设置topology.logging.config属性为了方便起见

Apache storm 如何在storm crawler中使用python螺栓？

标签： Apache Storm stormcrawlerapache-storm-topology

我有一些用python编写的图像分类器。web上提供了许多示例，这些示例描述了在storm bolt中使用python的方法，storm bolt使用的是标准输入/标准输出。我想将我的python图像分类器与storm crawler拓扑集成。有没有可能感谢几年前将Tensorflow图像分类器集成到StormCrawler拓扑中，这绝对是可能的。我记不起细节，我为客户编写了代码，但它是基于，不幸的是，不记得细节。几年前，为了将Tensorflow的图像分类器集成到StormCrawler拓扑

Apache storm Storm如何将任务分配给工人？

标签： Apache Storm

Storm如何为其员工分配任务？负载平衡是如何工作的？当您通过“Storm jar…”提交拓扑时，Storm会将任务分配给工人一个典型的风暴群将有许多管理器（也称为风暴节点）。每个主管节点（服务器）将运行多个工作进程。每个监控器的工作进程数由您使用Supervisor.slots.ports分配的端口数决定当拓扑通过“storm jar”提交时，storm平台将确定哪些工人将托管每个喷口和螺栓（也称为任务）。将承载拓扑的工作进程和执行程序的数量取决于您在开发期间设置的“并行度”，即提交拓扑时

Apache storm 有没有办法在Storm bolts的一部分中确认元组

标签： Apache Storm

由于在Storm中确认所有消息效率低下，在我的拓扑结构的整个组件中，只有部分组件需要保证消息处理，我想知道是否有适当的方法来实现这一点例如，我有一个TimingBolt，它使用tick tuple使作业在特定周期下工作： //定时螺栓 @凌驾公共void执行（元组输入）{ if（TupleUtils.isTick（输入））{ emit（streamA，input，新值（“Tick”））； }否则{ emit（streamB，新值（“消息”））； } } 我想保证在计时螺栓后，将勾选“消息明

Apache storm 在Storm Bolt中创建螺纹

标签： Apache Storm distributed-system

我想并行触发多个web请求，然后在storm拓扑中聚合数据？以下哪种方式是首选 1）在螺栓内创建多个螺纹 2）创建多个螺栓并创建合并螺栓以聚合数据我希望在一个螺栓中创建多个线程，因为在另一个螺栓中合并数据不是一个简单的过程。但我发现我在网上发现了一些问题但是没有弄清楚为什么不创建多个线程。任何指示都会有帮助另一方面，这是否意味着我不应该使用java8的并行流功能，正如在中所提到的那样？增加bolt的任务数量，就像产生相同的多个实例一样。同时增加执行器（线程）的数量，以均匀处理它们确保

Apache storm 风暴螺栓如何与数据库？；

标签： Apache Storm

我想知道螺栓如何与DB交互。根据我的理解，像spout和bolt这样的节点实际上被分配到不同的工作流程，并且可能运行在不同的机器上，如果这是真的，那么不同机器中的任务如何形成相同的bolt连接到相同的DB？还是我误解了风暴群的工作原理？你的理解是正确的。bolt的每个任务都将打开它自己与数据库服务器的连接。我知道了。非常感谢。

Apache storm 同一台机器的风暴场分组？我使用storm对字段进行分组问题是，因为我有多台机器和多个螺栓（显然），所以元组在机器之间移动，我怀疑这会大大降低我的性能特定字段分组结果是否可能特定于特定机器或者在字段分组的更多详细信息中，account1对于account2machine3对于account3对于machine1对于每个account对于所有螺栓都是粘性的，依此类推，对于每个account来说，所有螺栓都在一台特定的机器中运行请注意，一旦第一个bolt处理它在其输出元组中发出的accountid事件，从该点开始的所有bolt都具有accountid意味着我想从该点开始，在accountid上对拓扑结构。（在看到第一个答案后添加以澄清）

标签： Apache Storm

假设您有3台生产者P1、P2、P3和3台消费者C1、C2、C3以及3台机器，每台机器都承载一个生产者消费者对，即P1-C1。此外，假设您有3个不同的键值a、b、c。此外，假设C1处理键为a的所有元组通常，键为a的元组可以由所有三个生产者发出。此外，P1还可以发出具有键b或c的元组。因此，您不能使用将所有需要重新分区的数据分组的字段来限制到本地计算机的数据传输扩展如果有其他螺栓B1到B3使用C1到C3的数据，并且这些螺栓使用与C1到C3相同的字段分组键（即，Bx可以利用Cx中已经给定的分区）

Apache storm 如何捕获storm multilang螺栓内部的拓扑终止信号？

标签： Apache Storm

使用storm kill myTopology终止storm拓扑时，是否有任何方法在螺栓级别捕获终止信号 Topology在集群模式下运行，我主要使用multilang bolts node.js和python，我想在关机之前运行一些清理例程使用java实现，您只需要覆盖Bolt中的cleanup方法，并关闭spouts中的close方法。至于multilang螺栓，我看不到提供任何等效命令。Storm不保证将调用clenup。。。请参见此处：Thank@MatthiasJ.Sax，我已经编辑

Apache storm 水槽+；卡夫卡+；风暴丢失了消息。风暴拓扑消息将被删除

标签： Apache Storm

当在分发集群中启动Storm Topology时，我发现netty连接将失败，并且消息将被客户端本身丢弃工作人员日志信息如下： 2016-08-02T11:00:11.408+0800 b.s.m.n.Client [ERROR] connection to Netty-Client-h040.kt/192.168.18.40:6702 is unavailable 2016-08-02T11:00:11.408+0800 b.s.m.n.Client [ERROR] dropping 1 m