Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/331.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 用于解析/爬网网站的Jaxer替代品_Java_Html Parsing_Web Crawler_Jaxer - Fatal编程技术网

Java 用于解析/爬网网站的Jaxer替代品

Java 用于解析/爬网网站的Jaxer替代品,java,html-parsing,web-crawler,jaxer,Java,Html Parsing,Web Crawler,Jaxer,我有一个前同事几年前用Jaxer编写的旧工具,我想替换/重写它 是一个基于无头Mozilla/Gecko浏览器的(废弃的)服务器端框架,允许您使用JavaScript和DOM服务器端 由于Jaxer已经被抛弃,而且由于我在新计算机上安装和运行Aptana Studio 1.5和Jaxer时遇到了很大的问题,我正在寻找一个库/框架/东西,我可以在此基础上创建一个新版本 此工具仅在Aptana Studio(Jaxer的IDE)中本地运行,从未打算成为实际的web应用程序。它通过将客户的网站一页一页

我有一个前同事几年前用Jaxer编写的旧工具,我想替换/重写它

是一个基于无头Mozilla/Gecko浏览器的(废弃的)服务器端框架,允许您使用JavaScript和DOM服务器端

由于Jaxer已经被抛弃,而且由于我在新计算机上安装和运行Aptana Studio 1.5和Jaxer时遇到了很大的问题,我正在寻找一个库/框架/东西,我可以在此基础上创建一个新版本

此工具仅在Aptana Studio(Jaxer的IDE)中本地运行,从未打算成为实际的web应用程序。它通过将客户的网站一页一页地加载到服务器端Mozilla中来抓取他们的网站。为了做到这一点,它使用jQuery和预定义的CSS选择器来查找菜单中的链接,并解析页面中的其他信息。最终的结果基本上是一个美化的网站地图


如果可能的话,我希望保留这种操作方式,并继续使用jQuery/JavaScript/DOM来加载和解析/访问页面,但它可以包装在基于另一种语言(如Java)的框架中。我曾考虑自己写一些基于Gecko的东西,但这似乎有点过头了,所以我愿意接受其他建议。

就HTML爬网/解析而言:


TagSoup在这里并不是很有用,因为作为SAX解析器,我不能使用XPath或CSS,我必须单独编写/编写例程来查找我需要的信息(或者我错了?)。然而,jsoup看起来很有希望,因为它支持CSS选择器。很不错的!