Javascript 网站覆盖率的最佳开源Spider_Javascript_Web Crawler

Javascript 网站覆盖率的最佳开源Spider

javascript web-crawler

Javascript 网站覆盖率的最佳开源Spider,javascript,web-crawler,Javascript,Web Crawler,我对很多网站都感兴趣。最重要的考虑是蜘蛛能够到达尽可能多的地点。大多数spider缺少的一个关键特性是执行JavaScript的能力。这是抓取ajax支持的站点所必需的。我真的很喜欢开源，我需要为我的项目修改代码目前我认为Solr是Lucine的一部分，是一个很好的解决方案。有人用过Solr或Lucine吗？我对Solr最大的问题是不能执行javascript，但是它有丰富的特性集和可伸缩性，这两者都使Solr很有吸引力 Solr不是一个爬虫程序，而是一个搜索引擎（搜索索引以返回结果）也

我对很多网站都感兴趣。最重要的考虑是蜘蛛能够到达尽可能多的地点。大多数spider缺少的一个关键特性是执行JavaScript的能力。这是抓取ajax支持的站点所必需的。我真的很喜欢开源，我需要为我的项目修改代码

目前我认为Solr是Lucine的一部分，是一个很好的解决方案。

有人用过Solr或Lucine吗？我对Solr最大的问题是不能执行javascript，但是它有丰富的特性集和可伸缩性，这两者都使Solr很有吸引力

Solr不是一个爬虫程序，而是一个搜索引擎（搜索索引以返回结果）

也就是说，我非常喜欢它的灵活性。大多数爬虫程序不会执行Javascript（但有些，如Heritrix，会尝试从中提取链接），因为即使在今天，这也没有多大意义。问题是Heritrix将允许您插入自己的类，以便对已爬网的数据执行任何操作。

试试HTMLUnit

Solr是一个建立在Lucene之上的搜索引擎。它对爬行没有任何作用。看一看。破解javascript可能是一个问题，因为它们通常会导致爬虫进入死胡同。

可能对您有用。

对于基于javascript模板创建dom的页面，您确实希望在爬行器中完全执行javascript。看看节点JS

Heritrix非常棒，它有我想要的功能：ExtractorJS、ExtractorSWF、ExtractorCSS、extractordf等等！关于Javascript，你不能再错了，因为它是现代蜘蛛的重要组成部分。谷歌和其他主要搜索引擎评估javascript。你真的是说他们执行页面中的所有javascript？有一件事是提取PDF、JS等格式的链接，但我不会称之为评估JS、PDF等格式。我的错是，Lucine有很多子项目。Watir太棒了，它不太适合我的需要，但我必须记住。