Apache Storm_IT技术博客_编程技术问答

Apache storm Storm ClassNotFoundException

标签： Apache Storm

我第一次使用Storm（从Storm入门中学习），我的项目在运行时失败，出现ClassNotFoundException： [WARNING] java.lang.ClassNotFoundException: TopologyMain at java.net.URLClassLoader$1.run(Unknown Source) at java.net.URLClassLoader$1.run(Unknown Source) at java.security.Acce

Apache storm Storm支持批处理

标签： Apache Storm

我需要使用Storm处理成批的元组。我的最后一个螺栓必须等到拓扑接收到整个批次，然后才能进行一些处理。为避免混淆，batch for me是一组N条实时消息，该术语不必与批处理（Hadoop）联系起来。即使是两条消息也可以是一个批处理阅读Storm的文档，可以安全地说Storm本身不支持这种批处理（实时批处理=N条消息）我知道我们有三叉戟，但我没有使用它，但我做了一点测试。batchSpout的概念确实是我想要的，因为您可以使用收集器生成一个批，并且该批将作为单个批发出消息。但撇开三叉戟不谈

Apache storm Can'；t使用Kerberos登录Storm UI

标签： Apache Storm

我已经安装了Storm UI（版本1.0.2）并使用Kerberos运行，它似乎可以工作。日志表明它已成功通过身份验证，并且没有异常。现在我想从本地机器连接到UI。例如，我已经阅读了我能找到的所有文档据我所知，我需要这样设置属性，最重要的是最后的规则。我认为它所做的是建立一个映射，该映射表示“无论客户端在MYREALM中验证的是什么主体，都要在UI中映射到myUser” 然后在我的客户机上，我运行以下命令 kinit -kt <keytab> <same kerberos p

Apache storm 用于Vertica的防风雨螺栓

标签： Apache Storm vertica

我是风暴世界的新手，我正在寻找易于使用且性能良好的Vertica螺栓。Vertica使用JDBC，所以您应该搜索jbdc螺栓看起来有一些有用的链接：

Apache storm 勾选元组在apache storm 0.9.4中不起作用

标签： Apache Storm

我最近将storm版本从0.8.2迁移到了0.9.4。在0.8.2中，我在代码中的一个螺栓中实现了tick tuple功能当我用来运行拓扑时，它用来在指定的时间（以秒为单位）后触发周期性活动（在getComponentConfiguration方法中配置）但是相同的代码没有在ApacheStorm版本0.9.4中运行。执行方法中if块内的代码永远不会执行，因为isTickTuple方法总是返回false 其他功能在ApacheStorm 0.9.4中运行良好，但tick tuple没有按预期

Apache storm ava.lang.NoClassDefFoundError:无法初始化类org.apache.log4j.Log4jLoggerFactory此错误的原因是什么

标签： Apache Storm

java.lang.NoClassDefFoundError:无法在kafka.utils.Logging$class.Logger（Logger.java:39）的org.apache.log4j.log4jLogger.getLogger（Logger.java:39）上初始化类org.apache.log4j.Log4jLoggerFactory，在kafka.consumer.SimpleConsumer.Logger$lzycompute（SimpleConsumer.scala:35

Apache storm Apache Storm 2.1.0-拓扑工作程序无法在120000毫秒内启动

标签： Apache Storm

我在ApacheStorm 2.1.0中运行了40种拓扑结构，其中有两个监控节点和一个nimbus。某些拓扑在运行数小时后往往会停止。在Storm UI中，拓扑状态显示为active，而Num workers变为0。在supervisor.log中，我可以多次尝试启动工作进程，但每次启动都会超时。有人能帮我解决这个工人启动超时和工人到期问题吗 Storm UI-拓扑摘要 Name Id Owner Status Uptime Num workers Num executors

Apache storm 在Storm Crawler中使用不同的crawlRequestId对完全相同的URL进行单独爬网

标签： Apache Storm stormcrawler

我将基于Storm Crawler项目开发一个工件。我想从卡夫卡主题中获取种子URL。Kakfa中的每条消息都有两个重要字段：我们可能有不同爬网ID的重复seedURL。例如，在卡夫卡中，我可能有以下两条信息： , 我希望风暴爬虫尝试独立于其他种子处理每个种子URL。我们正在使用Solr跟踪每个Url的状态。对于此要求，需要更改默认拓扑的哪一部分（即SolrSpout）

Apache storm 我是否应该在storm中聚合消息，这是因为它的内部缓冲

标签： Apache Storm eda

本文有人提到，storm进行内部缓冲现在，我将有大量的事件进入我的storm拓扑，它将有多个层（螺栓）。第一层将以随机方式“消化”所有传入事件，并且可能每个传入事件都会向下一层（螺栓到螺栓）发出新事件。然而，对我来说，第一层也有可能只会周期性地发出消息（因此，它不是为每个传入事件发出事件，而是可以每滴答地发出一个事件：比方说每秒钟一次——这将大大减少下一层的负载）然而，当我阅读上述文章时，我看到storm有内部缓冲，我想知道这是否意味着我不需要弄乱滴答喷口，因为storm已经为我做了内部缓

Apache storm 卡夫卡喷口的字段分组

标签： Apache Storm Apache Kafka

可以对卡夫卡喷口发出的元组进行字段分组吗？如果是，那么Storm是如何知道卡夫卡记录中的字段的？Storm中的字段分组（以及通常的分组）是针对螺栓的，而不是针对喷口的。这是通过InputDeclarer类完成的。在TopologyBuilder上调用setBolt（）时，将返回InputDeclarer。Kafka Spout与任何其他组件一样声明其输出字段。我的解释是基于卡夫卡普特的最新理论在KafkaSpout.java类中，我们看到declareOutputFields方法调用kafk

Apache storm 风暴主管和工人未启动

标签： Apache Storm

我已经在谷歌上搜索了这个论坛和其他很多地方，但是我找不到解决我问题的方法。请帮忙问题是：我使用的是apache-storm-0.9.3、zookeeper-3.4.6和kafka_2.8.0-0.8.1.1 我正在本地机器上设置所有内容我的主管一开始就抛出错误，并抛出msg-->kill:没有这样的过程下面是我在屏幕上找到的 > storm supervisor Running: /usr/local/jdk1.8.0_05/bin/java -server -Dstorm.o

Apache storm ApacheStorm：为插槽分配执行器

标签： Apache Storm

我正在探索阿帕奇风暴。我知道无法确定哪些任务映射到哪个节点。我想知道是否有任何方法可以猜测哪些遗嘱执行人被分组在一起。例如，考虑一个具有1个喷口和2个螺栓的线性链拓扑：喷嘴->螺栓1->螺栓2 如果有一个3节点的集群，numworkers=3，组合并行度=9（3个喷口+2 x 3个螺栓），有没有办法确定执行器的分组方式？我已经读到默认调度程序以循环方式均匀地分配负载。这是否意味着所有工人都有一个实例： S->B1->B2执行者对于默认计划程序，您是对的。如果您有3个辅助对象，每个辅助对象将被

Apache storm 暴风雨中的网络错误，如何调试？

标签： Apache Storm

我在10个虚拟机上设置了一个storm群集，并在storm UI页面上验证了所有10个监控器都显示在那里但是，当我使用bin/storm jar my.jar my.class--remote提交jar文件时，我在所有监控节点上看到以下错误，并且所有监控节点都死掉了 2016-03-24 22:06:52.703 o.a.s.s.o.a.z.ClientCnxn [INFO] Opening socket connection to server 10.10.10.147/10.10.10.1

Apache storm Storm-DRPC对事务性对Trident-何时使用什么？

标签： Apache Storm topology

Trident似乎已经弃用了DRPC和事务拓扑。为什么常规拓扑不能像DRPC拓扑那样工作，这一点也不太清楚。DRPC拓扑的特点是什么有人能解释一下什么时候使用DRPC、事务型、三叉戟吗任何值得赞赏的帮助DRPC和事务性拓扑都只是建立在基本Storm拓扑之上的便利。您完全可以自己实现它们，这是对的，但问题是它们已经存在，并且在处理这些常见模式时可以简化您的工作也就是说，Trident旨在通过将事务和DRPC拓扑的许多功能封装到更好的抽象层来构建Storm拓扑，从而反对事务和DRPC拓扑，这是

Apache storm 不向OutputCollector发送ack可以吗？

标签： Apache Storm

假设我有一个螺栓需要通过某种类型的列表。如果经过计算，列表是空的，我不会发射。螺栓是否仍需要确认？取决于：如果您未使用RichBolt，则在退出execute方法后，storm将为您调用Ack 如果您正在使用RichBolt（由于有时您正在确认，因此情况似乎是这样的）如果正在使用，则需要ack元组，因此将调用spoutack回调。另外，如果您没有确认，您将获得超时，因此将调用“喷口失败”回调取决于：如果您未使用RichBolt，则在退出execute方法后，storm将为您调用Ack

Apache storm SparkStreaming和Storm的区别

标签： Apache Storm spark-streaming

我正在对实时推特流媒体数据进行分析。我听说了Spark流媒体。我想知道哪种方法最适合对实时流媒体数据进行分析，因为我的数据来源非常快。我建议就这一主题进行此演示：事实上，ApacheStorm是一个真正的流式体系结构，事件一个接一个地管理，如果您想对它们进行分组，您必须为此设计一个拓扑。它在延迟和设计方面是最强大的。但它当然是复杂的，你必须正确地设计你想要的另一方面，ApacheSpark是一种微批处理体系结构，它与hadoop类似，但每x秒执行一次，在定义的时间窗口上生成微批数据。由于它

Apache storm 本地群集的Storm UI内部服务器错误

标签： Apache Storm internal-server-error

我按照中的方法在Ubuntu 14.04 LTS中设置风暴。当我尝试连接到Storm UI时，错误如下所示。我在/home/user/storm/conf中的storm.yaml如下所示： Internal Server Error org.apache.thrift7.transport.TTransportException: java.net.ConnectException: Connection refused at org.apache.thrift7.transpor

Apache storm 喷口上的风暴滴答声元组

标签： Apache Storm

我想将我的喷口配置为在不同的流上以2种不同的频率发出滴答声元组。我的问题如下: 我知道这是如何使用螺栓完成的。但是，在喷口上，滴答声元组会在每个滴答声上调用下一个元组方法吗如何确定勾号被调用的频率？也就是说，我在配置对象中配置的时间的实际值是多少只有螺栓可以接收记号元组。喷口只能发出元组我假设你正试图每隔一段时间从你的喷口中“读”一次，以释放出一个新的元组例如，要在读取之间休眠50毫秒： @Override public void nextTuple() { try {

Apache storm 喷口未在风暴群集模式下读取/发射数据

标签： Apache Storm

我正在本地和集群模式下使用ApacheStorm 1.0.0。对于喷口，我正在阅读卡夫卡主题中的数据（我使用的是卡夫卡2.11-0.8.2.1）。喷口正在读取卡夫卡主题中的数据，并且在本地模式下使用storm时也会发出数据，但在群集模式下运行storm时，storm喷口不会发出任何数据我读取卡夫卡数据的拓扑实现如下： brokerHosts = new ZkHosts(kafkaZookeeper); SpoutConfig kafkaConfig = new SpoutConfig(brok

Apache storm 我可以在本地模式下不使用zookeeper运行apache storm吗？

标签： Apache Storm

我正在本地模式下运行storm topology 当运行风暴时，动物园管理员和灵光会自动启动 zookeeper和nimbus是在本地模式下运行storm所必需的还是我可以阻止它？如果是的话，告诉我如何阻止它在单机上运行storm时，zookeper在本地模式下的作用是什么？您不能禁用Nimbus/zookeper。Zookeeper是Storm用于维护状态和其他信息的整体状态管理/协调应用程序。Nimbus就像一个主站，接受下游主管的Storm作业和日程安排。Storm需要使用“Zookee

Apache storm 解析使用域名获取网页的基本URL

标签： Apache Storm stormcrawler

我目前正在工作的风暴爬虫为基础的项目。客户向我们提供了如下域名列表： example.com org 示例2.net 但是没有HTTP/HTTPS协议，Storm Crawler无法读取它们。如果我们添加他们的协议，有时会重定向到另一个URL地址。例如，重定向到并需要在新的深度再次对其进行爬网。但是，我们希望在第一个深度到达网站主页。我怎样才能在暴风爬虫中做到这一点

Apache storm 如何在故障切换期间恢复螺栓状态

标签： Apache Storm

我正在尝试找出如何在故障切换期间恢复暴风雨中的状态。我可以在外部（DB或文件系统）保持该状态，但是一旦重新启动bolt实例，我需要指向该bolt实例的特定状态来恢复它。螺栓的准备方法接收一个上下文，记录在这里我不清楚的是，这个上下文中是否有任何部分唯一地标识了特定的bolt实例，以便我能够理解指向哪个持久状态？故障转移期间是否保留该ID？或者，是否可以为故障转移期间保留的特定螺栓/实例设置任何变量/对象？感谢您的帮助溴兄弟姐妹附言。 stackoverflow是个新手，请耐心听我说……

Apache storm 在Trident中使用不透明状态时，如何保持批次ID？

标签： Apache Storm trident

我在使用本地群集重新运行Trident拓扑时遇到此错误： Current batch (1) is behind state's batch 以前的事务ID与计数器值一起存储在Cassandra中，但似乎事务ID在开始时总是设置为1，因此简单的验证步骤（当前事务ID大于以前的事务ID）总是失败如何使Trident持久化当前批次ID 谢谢

Apache storm 杀死拓扑名称中包含特殊字符的Storm拓扑

标签： Apache Storm apache-storm-topology

所以，碰巧我从他们的一个示例（Storm starter）中得到了一个Storm拓扑，它的名称是-local。现在，当我试图杀死它时，它不太高兴，因为名称被解释为一个参数。我试着用（双引号）引用这个名字，但没有成功。还有其他方法吗？我没有尝试过，但尝试以下方法，看看是否有效- 1）使用pkill命令终止拓扑 e.g: pkill local 2）运行ps-ef | grep本地然后找到“-local”的进程id，然后使用此命令- kill -9 {process-id of "-loc

Apache storm 在apache storm中，collector.fail做什么？

标签： Apache Storm

在apache storm中，collector.fail做什么？它是重放源（喷口）的元组，还是只重放发射它的最后一个螺栓的元组？注意：我没有锚定我的元组，那么在这种情况下会发生什么呢？如文档中所述，元组将从生成元组的喷口处重放通过将输入元组指定为要发出的第一个参数，可以锚定每个单词元组。由于单词元组是锚定的，因此如果单词元组未能在下游处理，则树根处的喷口元组将稍后重放。相反，让我们看看如果单词tuple是这样发出的，会发生什么： _emit（新值（word））；以这种方式发出单词tup

Apache storm 风暴中的局部或吹扫分组

标签： Apache Storm

考虑拓扑的以下配置： #喷口：2个 #螺栓：8 #工人：3人使用此配置，其中一个worker将不会有spout，如果我们在spout和bolt之间应用Local或Shuffle分组，worker-3 bolt是否接收任何元组？不，据我所知不是。当您使用localOrShuffle分组时，您的意思是如果可能的话，您希望发送到同一JVM内的任何螺栓，并且只有在VM内没有合适的螺栓任务时才发送到JVM外。不，据我所知不是这样。当您使用localOrShuffle分组时，您的意思是如果可能的话，您希

Apache storm 了解消息的风暴处理流程

标签： Apache Storm

1.我有一个拓扑（1个喷口和3个螺栓）和3台机器（1个nimbus和2个worker节点）。我想在所有3个节点上运行拓扑还是在nimbus上运行就足够了？是不是nimbus负责将代码分发到其他节点 2.我的喷口将在nimbus或任何工作节点上运行 3.3个螺栓在3个独立节点上运行，还是在同一节点上运行？它会被nimbus照顾吗 4.我们如何跟踪螺栓插入节点的处理 5.是否有任何文档可用于理解Storm中处理消息的完整流程？答案： Nimbus只是维护拓扑结构。部署主jar等任务是nimbus所做

Apache storm 为什么暴风雪会产生这种错误。。它持续运行几分钟，然后停止

标签： Apache Storm

我得到以下错误，我的工人死亡我正在运行风暴0.9.3 我在谷歌上查过这个问题，但我找不到合适的解决方案 2015-08-27 17:13:48 b.s.d.worker [ERROR] Error on initialization of server mk-worker.java.io.IOException: No such file or directory at java.io.UnixFileSystem.createFileExclusively(Native Method

Apache storm 风暴可视化中箭头上的数字是多少？

标签： Apache Storm

提交拓扑后，我用storm Visualization获得了下图，但没有得到箭头上的数字是多少？我搜索了更多，以获得任何澄清，但没有找到任何帮助都将不胜感激如果答案不正确，请更正，但当我检查拓扑结构时，我发现您看到的第一组单词是流名称。然后是传输的元组数。百分比显示流的容量（吞吐量）被占用的百分比。感谢您的回复，高容量百分比表示好还是不好？没有好坏之分。使用100%容量没有问题。使用1%的容量没有问题。

Apache storm storm kill拓扑名称[-w等待时间秒]

标签： Apache Storm

我想用等待时间秒=1秒来终止拓扑 storm kill topology-name [-w 1] 这个语法正确吗？否则，如何使用-w标志？请举例说明使用等待时间秒杀死storm拓扑 storm kill topology-name -w 1 就这样用吧

Apache storm 如何在ApacheStorm集群中维护分布式HashMap

标签： Apache Storm apache-storm-topology

我们在ApacheStorm中有一个用例，我们需要从源系统获取数据，然后对接收到的元组执行一些操作，但也希望在数据库中查找数据。但每次对数百万条记录进行数据库调用是不可行的。那么，有没有一种方法可以让我们在启动时加载一个分布式哈希映射，当元组在Bolt或Spout中处理时，首先查找这个哈希映射，如果哈希映射中不存在该值，那么进行Datbase调用并更新相应的映射，该映射应该可以跨多个服务器访问。没有内置任何内容（即，不运行外部服务）整个拓扑都可以访问，因为您的Bolt可能会在不同的JVM中运行

Apache storm ApacheStorm:WindowedBoltExecutor如何处理FailedException？

标签： Apache Storm

元组从窗口中掉出后，WindowedBoltExecutor执行 windowedOutputCollector.ack（元组）。但是，当boltExecute方法抛出一个FailedException时，我找不到会发生什么 BasicBoltExecutor以类似的方式显式处理此问题。我找不到WindowedBoltExecutor的等效处理。如何处理失败的元组？提前谢谢

Apache storm 在监督下运行Storm的好处，示例/示例代码

标签： Apache Storm topology

我已经正确安装了暴风雪。但是，我正在努力学习如何在storm上运行一个示例。有谁能给我一个链接或建议，让我来执行这个例子吗？另外，在监管下运行storm有什么好处假设您已经在本地机器上安装了storm，那么您就有了一个捆绑的示例storm项目，您可以在storm存储库的示例/storm starter中找到它要运行此示例，可以按照storm starter文件夹根文件夹中的README.markdown文件中提到的一系列步骤进行操作。这些步骤也可以在关于在监督下运行storm，好处是由于s

Apache storm 如何在storm中查看输入和输出

标签： Apache Storm

我已经安装了ApacheStorm并执行了这个示例。但没有显示输入或输出。我怎么看呢？基本理解这是一本必读的书，特别是这一节将帮助你获得基本的理解。您不仅应该为单词计数安装示例拓扑，还应该阅读附录。输入/输出您的最后一个螺栓应将输出传输到目标。可能是数据库、服务。。。您可以像在任何其他Java应用程序中一样使用日志记录。如果使用，则有一个过滤器，可以将其集成到拓扑中。基本认识这是一本必读的书，特别是这一节将帮助你获得基本的理解。您不仅应该为单词计数安装示例拓扑，还应该阅读附录。

Apache storm 卡夫卡滔滔不绝地多次阅读同一条信息

标签： Apache Storm Apache Kafka kafka-consumer-api

如果我在我的storm拓扑结构中增加卡夫卡喷口的并行性，我如何阻止它多次阅读同一主题中的同一消息？storm的卡夫卡喷口一直指向Zookeeper，因此只要你不清除Zookeeper存储，它就不应该多次阅读同一消息。如果您看到一条消息被多次读取，请检查偏移量是否被持久化到zookeeper实例我认为，默认情况下，在本地运行时，Kafka喷口会启动自己的本地Zookeeper实例，与Kafka的Zookeeper分开，每次重新启动拓扑时，它的状态可能会重置。您应该检查消息是否得到正确确认。如果没

Apache storm 如何在Apache Storm中启用主管的日志轮换

标签： Apache Storm

是否有任何配置文件可以让我在Storm中启用主管的日志轮换你指的是supervisor.log文件，对吗对于0.9.x版本的storm，您可以编辑logback/cluster.xml，对于0.10.x版本，可以编辑log4j2/cluster.xml文件，包括日志旋转

Apache storm 在Apache Storm中使用LocalCluster和StormSubmitter创建拓扑有什么区别？

标签： Apache Storm

提交者和集群之间有什么特殊的区别吗？当我使用LocalCluster时，它会自动创建yaml文件。但是，我希望使用自己的设置设置此yaml文件。LocalCluster用于测试，并在启动LocalCluster的JVM中运行Storm组件（Nimbus、Supervisors和Worker）。您不应该在生产中使用LocalCluster StormSubmitter用于将拓扑提交到真正的Storm群集。Nimbus、主管和工作人员都在自己的JVM中运行，JVM可以分布在多台机器上。设置群集的指南

Apache storm V 1.2.3教程。失败。我找对地方了吗？

标签： Apache Storm stormcrawler

我试图学习ApacheStorm的V1.2.3教程正在尝试从storm starter运行中获取Prology示例我用brew在macbook上安装了storm。这意味着我最终得到了ApacheStormV1.2.3 （这对我来说很合适，因为我正在尝试了解stormcrawler，它似乎使用了1.2.3。）因此，我花了很长时间试图查看示例的输出，最后认为我在以下内容中找到了输出： /usr/local/Cell/storm/1.2.3/libexec/logs/worders-artif

Apache storm 列出Storm拓扑中的所有螺栓

标签： Apache Storm topology

当我构建拓扑并收到StormTopology时，我希望能够列出已添加的所有喷口和螺栓。我使用get_bolts和get_spouts方法，但是从那里我似乎无法访问原始Spoute/Bolt实例。我唯一能得到的就是这个节俭螺栓。我需要如何施放才能接收我的插销/喷口impl？您可以从storm ui中看到所有插销/喷口impl，但不确定这是您想要的。您只想列出螺栓和管口，还是想对管口/管口做些什么？我想在setBolt方法中访问我随新MyCustomBolt提供的java实例：我想在它们上触发一些

Apache storm 如何从storm命令行客户端了解当前运行的拓扑？

标签： Apache Storm

是否有任何方法可以从Storm命令行客户端显示所有当前运行的Storm拓扑 Storm文档对此没有任何说明您可以运行 $STORM\u HOME/bin/STORM list storm提供了一个基于web的UI来监控此类信息但是，您可以开始编写自己的Thrift客户端，以连接到代理，并根据需要获取各种矩阵。如果您来自Java背景或类似背景，那么从提示符处编写和执行应该很容易。您可以使用命令：$bin/storm list我想写“jps”不加引号将向您显示所有当前java，您可以看到拓扑是否

Apache storm 在调试中从IDE运行拓扑？

标签： Apache Storm

经过大量的搜索，我没有发现任何描述如何做到这一点或这是否是一种可能性的东西。但如果我能够在调试模式下从IntelliJ启动拓扑，在断点处停止，等等，这将非常有帮助有人知道这是否可能吗？有关于如何完成的指南吗？可能的副本您对调试本地模式或分布式模式下运行的拓扑感兴趣吗？理想的分布式模式。目前，我正在开发时以分布式模式部署。但如果在本地模式下调试更容易（或可能），我将开始使用它进行开发。

Apache storm 如何从Storm'；s UI，在自定义时间间隔内？

标签： Apache Storm

Storm UI提供了（似乎）非常有用的容量指标。但它只显示了过去10分钟。有没有一种方法可以查看自定义时间间隔的信息？可能是通过UI还是通过命令行编辑：一个类似的问题。Storm UI中的可视化工具显示了一些百分比，但我找不到关于这些百分比表示什么的任何文档。它们是否指示螺栓的输入队列有多满？或者，花在某个螺栓上的时间百分比是多少？或者类似的？你找到百分比了吗？我也在找这个信息。你知道百分比是多少吗？我也在寻找这些信息。

Apache storm Storm UI未显示拓扑

标签： Apache Storm

我们正在LocalCluster中执行风暴拓扑。Storm拓扑执行良好，能够连接Storm UI（8090）。但是Storm UI没有显示正在运行的拓扑信息 LocalCluster cluster = new LocalCluster(); 并提交如下文件： bin/storm jar bin/StormTest-0.0.1-SNAPSHOT.jar com.abzooba.storm.twitter.TwitterTopologyCreator Twitter Localcluster不

Apache storm 如何在暴风雨中处理多个螺栓从同一个喷口读取的断裂

标签： Apache Storm

我的拓扑结构如下所示：所以基本上我想解决的问题是，每次停止或加载服务螺栓中出现任何问题，一个元组失败，它就会重放，喷口会重新释放它。这使得Cassandra bolt重新处理元组并重写数据我不能让load和stop螺栓中的元组没有任务，因为我需要在发生任何故障时重放它们。但是，我只想重放上面的工作流我使用KafkaSpout来发送数据（它在“默认”流中发送数据）。不确定如何在卡夫卡喷口的发射级别复制流如果我可以复制流，那么在两个流中的任何一个流上的重播只会在喷口级别上重新发出特定流上的

Apache storm Apache风暴场分组计算

标签： Apache Storm

我在Storm用户组中问了这个问题，但还没有得到回复，所以我决定在这里问。我已经找到了代码，以及许多关于如何计算taskIndex的引用，但是当我尝试使用以下内容时，我没有得到与Storm拓扑相同的结果。我也看到过不止一个帖子，其他人也有同样的报道问题是：你好, 我尝试使用下面的信息生成散列，修改它，然后依次计算正确的消费目的地任务索引，但没有成功。我在互联网上搜寻了一个这种手工计算的例子，结果却一无所获。我手上一定少了什么东西，所以我希望名单上的人能帮我我将字段分组如下： .fields

Apache storm Storm版本0.9.7仍然受支持吗？

标签： Apache Storm

在我正在工作的项目中，我必须重用使用storm 0.9.7的项目。我不想升级到更高的版本，因为它需要大量的代码更改，我希望重用这些代码。 Storm版本0.9.7仍然受支持吗？或者对0.9.7的支持是否已放弃？如果不支持Storm 0.9.7，我可能必须重写代码，据我所知，0.9.x上的开发已经停止。您可能仍然能够在用户邮件列表中找到您的问题的答案，但我会转到更新的版本最好直接问开发人员。

Apache storm apachestorm中的输入数据速率

标签： Apache Storm

我正在从文件中读取文本数据，并使用ApacheStorm对其进行处理以生成结果。我想尝试不同的输入数据速率。我想知道，在此设置下，如何更改apache storm中的输入数据速率。此外，输入数据速率为：默认情况下，Storm将尽可能快地将元组从喷口中拉出。您可以通过以下几个设置与此交互： topology.max.spout.pending定义了在Storm限制喷口并等待部分元组确认之前，可以向拓扑中释放多少元组。默认情况下，这是无上限的 topology.sleep.spout.wait.s

Apache storm 在Apache Storm拓扑开始时只执行一次方法

标签： Apache Storm

如果我有一个简单的ApacheStorm拓扑，在两个单独的节点上运行一个喷口（设置为并行度2）。在元组处理开始之前，如何编写一个在拓扑开始时只运行一次的方法单例/静态类或同步方法的任何实现都无法单独工作，因为这两个实例运行在不同的节点上也许有一些Storm方法可以用来决定我是否是第一个被实例化的喷口，然后才运行？我尝试使用getHistAskid（）和getThisWorkerTasks（）方法，但没有成功注意：2的并行性是为了保持简单。一个解决方案应该适用于任意数量的节点/工作节点。编辑

Apache storm 在StormCrawler中处理不同的爬网请求

标签： Apache Storm stormcrawler

我有一个基于StormCrawler的项目，需要永远运行。但是我想通过一个web应用程序运行多个爬网请求。web应用程序中的每个用户都可以提交他/她的爬虫请求。提交请求后，我们在web请求后面的相应表中创建一条新记录，并将其ID放入Kafka，同时将其在表中的状态更改为已提交。Kafka使用者从Kafka获取请求ID，并向StormCrawler发出相应的元组。在完成每个爬网请求后，我们需要将其状态更新为DONE，以便通知提交的用户。如何检测每个爬网请求的完成情况并更新其在表中的状态

Apache storm 拓扑在远程模式下仅在Storm上处于空闲状态

标签： Apache Storm stormcrawler

我有一个Stormcrawler拓扑结构，它在生成的拓扑结构基础上稍作修改，可以在本地模式下正常工作30秒，但当我添加-remote并提交它时，它已在Storm中注册，但只是在没有任何值发出或传输的情况下闲置我以前也有过类似的事情，但是在日志中找不到多少东西来说明问题所在，尽管我读不到的日志太多了以前有人见过这个吗克里斯更新：好的，在worker.log中找到： 2019-07-06 17:04:40.531标准线程-0[信息]无法识别的虚拟机选项“PrintGCDateStamps”