Java 用于解析/爬网网站的Jaxer替代品_Java_Html Parsing_Web Crawler_Jaxer

Java 用于解析/爬网网站的Jaxer替代品

java web-crawler

Java 用于解析/爬网网站的Jaxer替代品,java,html-parsing,web-crawler,jaxer,Java,Html Parsing,Web Crawler,Jaxer,我有一个前同事几年前用Jaxer编写的旧工具，我想替换/重写它是一个基于无头Mozilla/Gecko浏览器的（废弃的）服务器端框架，允许您使用JavaScript和DOM服务器端由于Jaxer已经被抛弃，而且由于我在新计算机上安装和运行Aptana Studio 1.5和Jaxer时遇到了很大的问题，我正在寻找一个库/框架/东西，我可以在此基础上创建一个新版本此工具仅在Aptana Studio（Jaxer的IDE）中本地运行，从未打算成为实际的web应用程序。它通过将客户的网站一页一页

我有一个前同事几年前用Jaxer编写的旧工具，我想替换/重写它

是一个基于无头Mozilla/Gecko浏览器的（废弃的）服务器端框架，允许您使用JavaScript和DOM服务器端

由于Jaxer已经被抛弃，而且由于我在新计算机上安装和运行Aptana Studio 1.5和Jaxer时遇到了很大的问题，我正在寻找一个库/框架/东西，我可以在此基础上创建一个新版本

此工具仅在Aptana Studio（Jaxer的IDE）中本地运行，从未打算成为实际的web应用程序。它通过将客户的网站一页一页地加载到服务器端Mozilla中来抓取他们的网站。为了做到这一点，它使用jQuery和预定义的CSS选择器来查找菜单中的链接，并解析页面中的其他信息。最终的结果基本上是一个美化的网站地图

如果可能的话，我希望保留这种操作方式，并继续使用jQuery/JavaScript/DOM来加载和解析/访问页面，但它可以包装在基于另一种语言（如Java）的框架中。我曾考虑自己写一些基于Gecko的东西，但这似乎有点过头了，所以我愿意接受其他建议。

就HTML爬网/解析而言：

或

TagSoup在这里并不是很有用，因为作为SAX解析器，我不能使用XPath或CSS，我必须单独编写/编写例程来查找我需要的信息（或者我错了？）。然而，jsoup看起来很有希望，因为它支持CSS选择器。很不错的！