elasticsearch 从站点地图抓取URL并将其索引到elasticsearch,elasticsearch,scrapy,web-crawler,nutch,frontera,elasticsearch,Scrapy,Web Crawler,Nutch,Frontera" /> elasticsearch 从站点地图抓取URL并将其索引到elasticsearch,elasticsearch,scrapy,web-crawler,nutch,frontera,elasticsearch,Scrapy,Web Crawler,Nutch,Frontera" />

elasticsearch 从站点地图抓取URL并将其索引到elasticsearch

elasticsearch 从站点地图抓取URL并将其索引到elasticsearch,elasticsearch,scrapy,web-crawler,nutch,frontera,elasticsearch,Scrapy,Web Crawler,Nutch,Frontera,我有一个用例,需要从一堆站点地图中抓取页面,并将其索引到elasticsearch。从我目前的调查来看,我把范围缩小到了Nutch和Scrapy(可能是Frontera)。我喜欢Nutch,因为它非常成熟,并且与Tika和其他库集成,因此可以解析不同类型的内容(如PDF、Doc等)。我也读了一些关于Scrapy的好东西,想知道这是否是一个好的选择。我正在寻找一种被广泛采用且相当稳定的产品。我对Java非常熟悉,但对Python也很熟悉 我很想听听那些使用过上述工具的人的经验或建议。你没有考虑St

我有一个用例,需要从一堆站点地图中抓取页面,并将其索引到elasticsearch。从我目前的调查来看,我把范围缩小到了Nutch和Scrapy(可能是Frontera)。我喜欢Nutch,因为它非常成熟,并且与Tika和其他库集成,因此可以解析不同类型的内容(如PDF、Doc等)。我也读了一些关于Scrapy的好东西,想知道这是否是一个好的选择。我正在寻找一种被广泛采用且相当稳定的产品。我对Java非常熟悉,但对Python也很熟悉


我很想听听那些使用过上述工具的人的经验或建议。

你没有考虑SturrMrWr勒的任何原因吗?它支持站点地图、Elasticsearch和Tika插件。它是用Java主动维护和实现的,我浏览了一下,它说它不是一个成熟的爬虫程序,而是一个SDK。可能是一个SDK也会为我做这项工作,因为我只是在探索我真的不知道答案。我还担心采用和主动维护。但是如果你对它有很好的经验,我也很高兴听到这个消息。它可以是完全成熟的,同时也是SDK。如果我没有弄错的话,Scrapy也是一个SDK。再主动维护:1到2个月的发布周期+频繁提交。注:我是SC的作者,当然我有点偏激,你为什么不考虑StRMcRaWr勒?它支持站点地图、Elasticsearch和Tika插件。它是用Java主动维护和实现的,我浏览了一下,它说它不是一个成熟的爬虫程序,而是一个SDK。可能是一个SDK也会为我做这项工作,因为我只是在探索我真的不知道答案。我还担心采用和主动维护。但是如果你对它有很好的经验,我也很高兴听到这个消息。它可以是完全成熟的,同时也是SDK。如果我没有弄错的话,Scrapy也是一个SDK。再主动维护:1到2个月的发布周期+频繁提交。注:我是SC的作者,当然有点偏见