Java 刮削；a「；标签b/w"；p"；使用JSoup的标记_Java_Regex_Web Scraping_Jsoup

Java 刮削；a「；标签b/w"；p"；使用JSoup的标记

java regex web-scraping

Java 刮削；a「；标签b/w"；p"；使用JSoup的标记,java,regex,web-scraping,jsoup,Java,Regex,Web Scraping,Jsoup,我正在浏览一个网站，我感兴趣的一段文章包含许多a标签。情况是这样的： <p> <a></a> Some text <a></a> Some text </p> 一些文本一些文本我成功地提取了p标记中的所有文本，但a标记中的文本除外。因此，文本的连续性丧失，变得非常不可读我需要将p标记中的所有内容提取为文本。有办法吗？从文档中，您希望在p元素上使用该方法：获取此元素及其所有子元素

我正在浏览一个网站，我感兴趣的一段文章包含许多a标签。情况是这样的：

<p>
    <a></a>
    Some text
    <a></a>
    Some text
</p>


一些文本
一些文本

我成功地提取了p标记中的所有文本，但a标记中的文本除外。因此，文本的连续性丧失，变得非常不可读

我需要将p标记中的所有内容提取为文本。有办法吗？

从文档中，您希望在

元素上使用该方法：

获取此元素及其所有子元素的组合文本。空白被规范化和修剪

例如，给定HTML

你好

，

p.text（）

“您好！”

返回：

未编码、规范化文本或空字符串（如果没有）

（与之形成对比。）

就是这样。谢谢另外，这也是我在发布SO之前先阅读相关文档的一个教训。