<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 从站点地图抓取URL并将其索引到elasticsearch_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Scrapy_Web Crawler_Nutch_Frontera

elasticsearch 从站点地图抓取URL并将其索引到elasticsearch

scrapy web-crawler

elasticsearch 从站点地图抓取URL并将其索引到elasticsearch,elasticsearch,scrapy,web-crawler,nutch,frontera,elasticsearch,Scrapy,Web Crawler,Nutch,Frontera,我有一个用例，需要从一堆站点地图中抓取页面，并将其索引到elasticsearch。从我目前的调查来看，我把范围缩小到了Nutch和Scrapy（可能是Frontera）。我喜欢Nutch，因为它非常成熟，并且与Tika和其他库集成，因此可以解析不同类型的内容（如PDF、Doc等）。我也读了一些关于Scrapy的好东西，想知道这是否是一个好的选择。我正在寻找一种被广泛采用且相当稳定的产品。我对Java非常熟悉，但对Python也很熟悉我很想听听那些使用过上述工具的人的经验或建议。你没有考虑St

我有一个用例，需要从一堆站点地图中抓取页面，并将其索引到elasticsearch。从我目前的调查来看，我把范围缩小到了Nutch和Scrapy（可能是Frontera）。我喜欢Nutch，因为它非常成熟，并且与Tika和其他库集成，因此可以解析不同类型的内容（如PDF、Doc等）。我也读了一些关于Scrapy的好东西，想知道这是否是一个好的选择。我正在寻找一种被广泛采用且相当稳定的产品。我对Java非常熟悉，但对Python也很熟悉

我很想听听那些使用过上述工具的人的经验或建议。

你没有考虑SturrMrWr勒的任何原因吗？它支持站点地图、Elasticsearch和Tika插件。它是用Java主动维护和实现的，我浏览了一下，它说它不是一个成熟的爬虫程序，而是一个SDK。可能是一个SDK也会为我做这项工作，因为我只是在探索我真的不知道答案。我还担心采用和主动维护。但是如果你对它有很好的经验，我也很高兴听到这个消息。它可以是完全成熟的，同时也是SDK。如果我没有弄错的话，Scrapy也是一个SDK。再主动维护：1到2个月的发布周期+频繁提交。注：我是SC的作者，当然我有点偏激，你为什么不考虑StRMcRaWr勒？它支持站点地图、Elasticsearch和Tika插件。它是用Java主动维护和实现的，我浏览了一下，它说它不是一个成熟的爬虫程序，而是一个SDK。可能是一个SDK也会为我做这项工作，因为我只是在探索我真的不知道答案。我还担心采用和主动维护。但是如果你对它有很好的经验，我也很高兴听到这个消息。它可以是完全成熟的，同时也是SDK。如果我没有弄错的话，Scrapy也是一个SDK。再主动维护：1到2个月的发布周期+频繁提交。注：我是SC的作者，当然有点偏见