Web crawler 在本地模式下运行风暴爬虫,不依赖zookeeper,nimbus

Web crawler 在本地模式下运行风暴爬虫,不依赖zookeeper,nimbus,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我在mysql中存储URL,在lucene中存储索引数据。我在使用tomcat的多台机器上运行storm crawler作为应用服务器。我真的需要zookeeper、nimbus和storm在服务器之间分发URL(来自mysql)吗 问:我是否需要一个Storm群集来运行StormCrawler 答:没有。它可以在本地模式下运行,并且只使用Storm库作为依赖项。不过,在伪分布式模式下安装Storm是有意义的,这样您就可以使用它的UI来监视拓扑 另请参见嗨,请一次问一个问题。您同时询问了Stor

我在mysql中存储URL,在lucene中存储索引数据。我在使用tomcat的多台机器上运行storm crawler作为应用服务器。我真的需要zookeeper、nimbus和storm在服务器之间分发URL(来自mysql)吗

问:我是否需要一个Storm群集来运行StormCrawler

答:没有。它可以在本地模式下运行,并且只使用Storm库作为依赖项。不过,在伪分布式模式下安装Storm是有意义的,这样您就可以使用它的UI来监视拓扑


另请参见

嗨,请一次问一个问题。您同时询问了Storm和Bucket。@JulienNioche我将URL存储在mysql中,将索引数据存储在lucene中。我使用tomcat在多台机器上运行Storm crawler作为应用服务器。我是否真的需要zookeeper、nimbus和storm在服务器之间分发URL(来自mysql)。。??我想在不运行storm群集的情况下使用storm crawler作为库。。可能吗?由于我可以通过应用服务器从mysql获取url的锁定和获取机制(以避免多个应用服务器处理同一url),我是否应该在没有storm依赖的情况下运行?我只是使用storm jar文件来运行,但它包含nimbus和zookeeper。storm crawler中的这些文件的用途是什么?