是否有适合爬网的服务器端dom引擎？_Dom_Extract_Web Crawler_Jaxer

是否有适合爬网的服务器端dom引擎？

dom web-crawler

是否有适合爬网的服务器端dom引擎？,dom,extract,web-crawler,jaxer,Dom,Extract,Web Crawler,Jaxer,我发现了一个项目，它在服务器端嵌入了Firefox的JavaScript引擎，因此它可以很好地解析HTML服务器端。但是，这个项目似乎已经死了。解析HTML和提取数据对于抓取网页非常有用是否有一些新技术可用于提取信息？我过去所做的是使用真实的web浏览器控制web浏览器（通常是firefox）从代码加载和解析网站关于这一点，最酷的是，您主要使用您熟悉的语言（Perl、Ruby或C#）进行编码。但要充分利用javascript的强大功能，您仍然需要了解和编写javascript。我过去所做的是

我发现了一个项目，它在服务器端嵌入了Firefox的JavaScript引擎，因此它可以很好地解析HTML服务器端。但是，这个项目似乎已经死了。解析HTML和提取数据对于抓取网页非常有用

是否有一些新技术可用于提取信息？

我过去所做的是使用真实的web浏览器控制web浏览器（通常是firefox）从代码加载和解析网站

关于这一点，最酷的是，您主要使用您熟悉的语言（Perl、Ruby或C#）进行编码。但要充分利用javascript的强大功能，您仍然需要了解和编写javascript。

我过去所做的是使用javascript控制web浏览器（通常是firefox），从代码到使用真正的web浏览器加载和解析网站

关于这一点，最酷的是，您主要使用您熟悉的语言（Perl、Ruby或C#）进行编码。但要充分利用javascript的强大功能，您仍然需要了解并编写javascript。

另一种有趣的方法是与页面结合使用，并加载页面并解析其中的javascript。目前它还没有真正的开箱即用，但是Dav Glass（来自雅虎）已经使用了这个组合的修改版本

如果您认为没有什么东西是足够好的，并且希望实现自己的，那么这很有趣。如果是这样的话，它将成为一个优秀的开源项目。

另一个有趣的方法是与页面结合使用，加载页面并解析其中的javascript。目前它还没有真正的开箱即用，但是Dav Glass（来自雅虎）已经使用了这个组合的修改版本

如果您认为没有什么东西是足够好的，并且希望实现自己的，那么这很有趣。如果是这样的话，它将成为一个优秀的开源项目。

我已经成功地用python+pywebkitgtk+javascript编写了一个支持js的爬虫程序。它比传统的爬虫程序慢得多，但它完成了任务，可以做一些很酷的事情，比如制作屏幕截图和拾取被js注入“模糊”的内容

这里有一篇不错的文章，其中包含一些示例代码：

类似于Jaxer，主要区别是基于Java，而不是JavaScript。

注意：我将此作为一个单独的答案添加，因为它与我以前的答案完全不同。注意：我将此作为一个单独的答案添加，因为它与我以前的答案完全不同。