Java 刮削;a「;标签b/w";p";使用JSoup的标记

Java 刮削;a「;标签b/w";p";使用JSoup的标记,java,regex,web-scraping,jsoup,Java,Regex,Web Scraping,Jsoup,我正在浏览一个网站,我感兴趣的一段文章包含许多a标签。情况是这样的: <p> <a></a> Some text <a></a> Some text </p> 一些文本 一些文本 我成功地提取了p标记中的所有文本,但a标记中的文本除外。因此,文本的连续性丧失,变得非常不可读 我需要将p标记中的所有内容提取为文本。有办法吗?从文档中,您希望在p元素上使用该方法: 获取此元素及其所有子元素

我正在浏览一个网站,我感兴趣的一段文章包含许多a标签。情况是这样的:

<p>
    <a></a>
    Some text
    <a></a>
    Some text
</p>

一些文本
一些文本

我成功地提取了p标记中的所有文本,但a标记中的文本除外。因此,文本的连续性丧失,变得非常不可读


我需要将p标记中的所有内容提取为文本。有办法吗?

从文档中,您希望在
p
元素上使用该方法:

获取此元素及其所有子元素的组合文本。空白被规范化和修剪

例如,给定HTML
你好

p.text()
返回
“您好!”

返回:

未编码、规范化文本或空字符串(如果没有)


(与之形成对比。)

就是这样。谢谢另外,这也是我在发布SO之前先阅读相关文档的一个教训。