是否有适合爬网的服务器端dom引擎?

是否有适合爬网的服务器端dom引擎?,dom,extract,web-crawler,jaxer,Dom,Extract,Web Crawler,Jaxer,我发现了一个项目,它在服务器端嵌入了Firefox的JavaScript引擎,因此它可以很好地解析HTML服务器端。但是,这个项目似乎已经死了。解析HTML和提取数据对于抓取网页非常有用 是否有一些新技术可用于提取信息?我过去所做的是使用真实的web浏览器控制web浏览器(通常是firefox)从代码加载和解析网站 关于这一点,最酷的是,您主要使用您熟悉的语言(Perl、Ruby或C#)进行编码。但要充分利用javascript的强大功能,您仍然需要了解和编写javascript。我过去所做的是

我发现了一个项目,它在服务器端嵌入了Firefox的JavaScript引擎,因此它可以很好地解析HTML服务器端。但是,这个项目似乎已经死了。解析HTML和提取数据对于抓取网页非常有用


是否有一些新技术可用于提取信息?

我过去所做的是使用真实的web浏览器控制web浏览器(通常是firefox)从代码加载和解析网站


关于这一点,最酷的是,您主要使用您熟悉的语言(Perl、Ruby或C#)进行编码。但要充分利用javascript的强大功能,您仍然需要了解和编写javascript。

我过去所做的是使用javascript控制web浏览器(通常是firefox),从代码到使用真正的web浏览器加载和解析网站


关于这一点,最酷的是,您主要使用您熟悉的语言(Perl、Ruby或C#)进行编码。但要充分利用javascript的强大功能,您仍然需要了解并编写javascript。

另一种有趣的方法是与页面结合使用,并加载页面并解析其中的javascript。目前它还没有真正的开箱即用,但是Dav Glass(来自雅虎)已经使用了这个组合的修改版本


如果您认为没有什么东西是足够好的,并且希望实现自己的,那么这很有趣。如果是这样的话,它将成为一个优秀的开源项目。

另一个有趣的方法是与页面结合使用,加载页面并解析其中的javascript。目前它还没有真正的开箱即用,但是Dav Glass(来自雅虎)已经使用了这个组合的修改版本


如果您认为没有什么东西是足够好的,并且希望实现自己的,那么这很有趣。如果是这样的话,它将成为一个优秀的开源项目。

我已经成功地用python+pywebkitgtk+javascript编写了一个支持js的爬虫程序。它比传统的爬虫程序慢得多,但它完成了任务,可以做一些很酷的事情,比如制作屏幕截图和拾取被js注入“模糊”的内容

这里有一篇不错的文章,其中包含一些示例代码:


我已经成功地用python+pywebkitgtk+javascript编写了一个支持js的爬虫程序。它比传统的爬虫程序慢得多,但它完成了任务,可以做一些很酷的事情,比如制作屏幕截图和拾取被js注入“模糊”的内容

这里有一篇不错的文章,其中包含一些示例代码:


类似于Jaxer,主要区别是基于Java,而不是JavaScript。

类似于Jaxer,主要区别是基于Java,而不是JavaScript。

注意:我将此作为一个单独的答案添加,因为它与我以前的答案完全不同。注意:我将此作为一个单独的答案添加,因为它与我以前的答案完全不同。