Javascript 网站覆盖率的最佳开源Spider

Javascript 网站覆盖率的最佳开源Spider,javascript,web-crawler,Javascript,Web Crawler,我对很多网站都感兴趣。最重要的考虑是蜘蛛能够到达尽可能多的地点。大多数spider缺少的一个关键特性是执行JavaScript的能力。这是抓取ajax支持的站点所必需的。我真的很喜欢开源,我需要为我的项目修改代码 目前我认为Solr是Lucine的一部分,是一个很好的解决方案。 有人用过Solr或Lucine吗?我对Solr最大的问题是不能执行javascript,但是它有丰富的特性集和可伸缩性,这两者都使Solr很有吸引力 Solr不是一个爬虫程序,而是一个搜索引擎(搜索索引以返回结果) 也

我对很多网站都感兴趣。最重要的考虑是蜘蛛能够到达尽可能多的地点。大多数spider缺少的一个关键特性是执行JavaScript的能力。这是抓取ajax支持的站点所必需的。我真的很喜欢开源,我需要为我的项目修改代码

目前我认为Solr是Lucine的一部分,是一个很好的解决方案。


有人用过Solr或Lucine吗?我对Solr最大的问题是不能执行javascript,但是它有丰富的特性集和可伸缩性,这两者都使Solr很有吸引力

Solr不是一个爬虫程序,而是一个搜索引擎(搜索索引以返回结果)


也就是说,我非常喜欢它的灵活性。大多数爬虫程序不会执行Javascript(但有些,如Heritrix,会尝试从中提取链接),因为即使在今天,这也没有多大意义。问题是Heritrix将允许您插入自己的类,以便对已爬网的数据执行任何操作。

试试HTMLUnit

Solr是一个建立在Lucene之上的搜索引擎。它对爬行没有任何作用。看一看。破解javascript可能是一个问题,因为它们通常会导致爬虫进入死胡同。

可能对您有用。

对于基于javascript模板创建dom的页面,您确实希望在爬行器中完全执行javascript。看看节点JS

Heritrix非常棒,它有我想要的功能:ExtractorJS、ExtractorSWF、ExtractorCSS、extractordf等等!关于Javascript,你不能再错了,因为它是现代蜘蛛的重要组成部分。谷歌和其他主要搜索引擎评估javascript。你真的是说他们执行页面中的所有javascript?有一件事是提取PDF、JS等格式的链接,但我不会称之为评估JS、PDF等格式。我的错是,Lucine有很多子项目。Watir太棒了,它不太适合我的需要,但我必须记住。