Web crawler 在本地模式下运行风暴爬虫，不依赖zookeeper，nimbus_Web Crawler_Apache Storm_Stormcrawler

Web crawler 在本地模式下运行风暴爬虫，不依赖zookeeper，nimbus

web-crawler apache-storm

Web crawler 在本地模式下运行风暴爬虫，不依赖zookeeper，nimbus,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我在mysql中存储URL，在lucene中存储索引数据。我在使用tomcat的多台机器上运行storm crawler作为应用服务器。我真的需要zookeeper、nimbus和storm在服务器之间分发URL（来自mysql）吗问：我是否需要一个Storm群集来运行StormCrawler 答：没有。它可以在本地模式下运行，并且只使用Storm库作为依赖项。不过，在伪分布式模式下安装Storm是有意义的，这样您就可以使用它的UI来监视拓扑另请参见嗨，请一次问一个问题。您同时询问了Stor

我在mysql中存储URL，在lucene中存储索引数据。我在使用tomcat的多台机器上运行storm crawler作为应用服务器。我真的需要zookeeper、nimbus和storm在服务器之间分发URL（来自mysql）吗

问：我是否需要一个Storm群集来运行StormCrawler

答：没有。它可以在本地模式下运行，并且只使用Storm库作为依赖项。不过，在伪分布式模式下安装Storm是有意义的，这样您就可以使用它的UI来监视拓扑

另请参见

嗨，请一次问一个问题。您同时询问了Storm和Bucket。@JulienNioche我将URL存储在mysql中，将索引数据存储在lucene中。我使用tomcat在多台机器上运行Storm crawler作为应用服务器。我是否真的需要zookeeper、nimbus和storm在服务器之间分发URL（来自mysql）。。？？我想在不运行storm群集的情况下使用storm crawler作为库。。可能吗？由于我可以通过应用服务器从mysql获取url的锁定和获取机制（以避免多个应用服务器处理同一url），我是否应该在没有storm依赖的情况下运行？我只是使用storm jar文件来运行，但它包含nimbus和zookeeper。storm crawler中的这些文件的用途是什么？