Java 如何从html中获取文本和标题?

Java 如何从html中获取文本和标题?,java,html,Java,Html,我有一个包含html文本的字符串 <html ... ... <tr class="test1" onmouseover= .....................> <td ..........> <strong>Test Text</strong> </td> <td ............">Test Text 2</td> &l

我有一个包含html文本的字符串

<html ...
      ...

    <tr class="test1" onmouseover= .....................>
       <td ..........> <strong>Test Text</strong>  </td>
       <td ............">Test Text 2</td>

       <span class="x1" title="Test Title 1">X1</span>
       <span class="x2" title="Test Title 2">X2</span>
       <span class="x3" title="Test Title 3">X3</span>
    </tr>  
..
.....
用于将HTML解析为DOM,然后使用CSS选择器
*[title]
获取具有title属性的所有元素的列表

jsoup实现WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM

  • 从URL、文件或字符串中提取和解析HTML
  • 使用DOM遍历或CSS选择器查找和提取数据

首先,在这里删除
regex
标记-details:查看我试过的jsoup,但它删除了标题。