是否有类似于lxml或nokogiri for Java的库?

是否有类似于lxml或nokogiri for Java的库?,java,screen-scraping,Java,Screen Scraping,我想做一些屏幕抓取,最好使用CSS选择器,而不是XPath。有没有类似于Ruby或Python中的库?可以通过jRuby使用。有关它的更多详细信息,请参阅。有十几个用Java编写的屏幕抓取库。仅举几个例子: -一个用Java编写的SAX兼容解析器 解析格式良好或有效的XML, 解析在中找到的HTML 狂野的:肮脏而残忍,尽管相当残忍 通常不短。塔格汤是 专为那些不得不 使用一些 一个理性应用的外表 设计。通过提供SAX接口, 它允许使用标准的XML工具 甚至应用于最糟糕的HTML -Jeric

我想做一些屏幕抓取,最好使用CSS选择器,而不是XPath。有没有类似于Ruby或Python中的库?

可以通过jRuby使用。有关它的更多详细信息,请参阅。

有十几个用Java编写的屏幕抓取库。仅举几个例子:

  • -一个用Java编写的SAX兼容解析器 解析格式良好或有效的XML, 解析在中找到的HTML 狂野的:肮脏而残忍,尽管相当残忍 通常不短。塔格汤是 专为那些不得不 使用一些 一个理性应用的外表 设计。通过提供SAX接口, 它允许使用标准的XML工具 甚至应用于最糟糕的HTML
  • -Jericho HTML解析器是一个简单但功能强大的 允许分析和测试的java库 HTML部分的操作 文档,包括一些常见的 服务器端标记,同时复制 逐字记录任何无法识别或无效的信息 HTML。它还提供高级HTML 表单操作函数。t是 既不是基于事件也不是基于树的 解析器,而是使用一个组合 简单的文本搜索,高效的标签 识别和标签位置缓存。 整个源文档的文本 首先加载到内存中,然后 仅搜索相关段 对于每个 搜索操作
  • -HtmlCleaner重新排列单个元素和 从脏文件生成格式良好的XML HTML。它遵循类似的规则: 大多数web浏览器按顺序使用 创建文档对象模型。A. 用户可以提供自定义标记和规则 设置标签过滤和平衡
  • -NekoHTML是一个简单的HTML扫描程序和标记平衡器 使应用程序程序员能够 解析HTML文档并访问 使用标准XML的信息 接口。解析器可以扫描HTML 文件和“修复”许多常见问题 人类(和计算机)犯的错误 作者在编写HTML时做出的贡献 文件。NekoHTML添加了缺失的 父元素;自动关闭 具有可选结束标记的元素;和 可以处理不匹配的内联元素 标签
还有更多。但是,正如我在中提到的,这些是处理任何类型的内容(理解所有类型的废话)的最佳方法。但这对你来说可能不是问题

以防万一,也许可以查看线程

更新:发布了一个新项目(2010-01-31),该项目提供了。查看其网站了解更多详细信息和/或其作者