是否有类似于lxml或nokogiri for Java的库？_Java_Screen Scraping

是否有类似于lxml或nokogiri for Java的库？

java

是否有类似于lxml或nokogiri for Java的库？,java,screen-scraping,Java,Screen Scraping,我想做一些屏幕抓取，最好使用CSS选择器，而不是XPath。有没有类似于Ruby或Python中的库？可以通过jRuby使用。有关它的更多详细信息，请参阅。有十几个用Java编写的屏幕抓取库。仅举几个例子： -一个用Java编写的SAX兼容解析器解析格式良好或有效的XML，解析在中找到的HTML 狂野的：肮脏而残忍，尽管相当残忍通常不短。塔格汤是专为那些不得不使用一些一个理性应用的外表设计。通过提供SAX接口，它允许使用标准的XML工具甚至应用于最糟糕的HTML -Jeric

我想做一些屏幕抓取，最好使用CSS选择器，而不是XPath。有没有类似于Ruby或Python中的库？

可以通过jRuby使用。有关它的更多详细信息，请参阅。

有十几个用Java编写的屏幕抓取库。仅举几个例子：

-一个用Java编写的SAX兼容解析器解析格式良好或有效的XML，解析在中找到的HTML 狂野的：肮脏而残忍，尽管相当残忍通常不短。塔格汤是专为那些不得不使用一些一个理性应用的外表设计。通过提供SAX接口，它允许使用标准的XML工具甚至应用于最糟糕的HTML
-Jericho HTML解析器是一个简单但功能强大的允许分析和测试的java库 HTML部分的操作文档，包括一些常见的服务器端标记，同时复制逐字记录任何无法识别或无效的信息 HTML。它还提供高级HTML 表单操作函数。t是既不是基于事件也不是基于树的解析器，而是使用一个组合简单的文本搜索，高效的标签识别和标签位置缓存。整个源文档的文本首先加载到内存中，然后仅搜索相关段对于每个搜索操作
-HtmlCleaner重新排列单个元素和从脏文件生成格式良好的XML HTML。它遵循类似的规则：大多数web浏览器按顺序使用创建文档对象模型。A. 用户可以提供自定义标记和规则设置标签过滤和平衡
-NekoHTML是一个简单的HTML扫描程序和标记平衡器使应用程序程序员能够解析HTML文档并访问使用标准XML的信息接口。解析器可以扫描HTML 文件和“修复”许多常见问题人类（和计算机）犯的错误作者在编写HTML时做出的贡献文件。NekoHTML添加了缺失的父元素；自动关闭具有可选结束标记的元素；和可以处理不匹配的内联元素标签

还有更多。但是，正如我在中提到的，这些是处理任何类型的内容（理解所有类型的废话）的最佳方法。但这对你来说可能不是问题

以防万一，也许可以查看线程

更新：发布了一个新项目（2010-01-31），该项目提供了。查看其网站了解更多详细信息和/或其作者