Java Jsoup在使用select时忽略嵌套标记
我试图解析一个使用Java Jsoup在使用select时忽略嵌套标记,java,jsoup,Java,Jsoup,我试图解析一个使用 <b>Header</b>Data<strong>Header</strong>Data 然后试着提取之间的文本。-一切都很好 问题:有时该网站有例如 <strong><strong>HeaderX</strong><br /></strong>Data 试试这个: 编辑 info.select("b,strong").remove().text(); 你能
<b>Header</b>Data<strong>Header</strong>Data
然后试着提取之间的文本。-一切都很好
问题:有时该网站有例如
<strong><strong>HeaderX</strong><br /></strong>Data
试试这个: 编辑
info.select("b,strong").remove().text();
你能试试这个吗
doc.select("strong > strong, strong:last-child");
这只会得到两次标题,只需在
上测试它,并得到输出:我在firebug 1.2扩展上测试了它,它对我有效。好的,尝试这种方式,而不是使用循环。答案将张贴在上面。
info.select("b,strong").remove().text();
doc.select("strong > strong, strong:last-child");