Java 如何提取网页JSoup中的所有文本_Java_Html_Jsoup

Java 如何提取网页JSoup中的所有文本

java html

Java 如何提取网页JSoup中的所有文本,java,html,jsoup,Java,Html,Jsoup,有人知道我怎样才能提取出以外的文本吗（基本上也可以在其他元素中找到文本） ` 在网页中。它必须是一个完整的时间顺序，因为它是如何显示在原始网页除了标签之外，我的意思还包括从中提取标题中的单词，以及！例如，给定一个html网页标题1 标题2 这是一段随机的段落头3 这是另一个随机段落 *如果网页的主体中也有p个标签之后的标签，则会有点复杂因此，所需的（按时间顺序）输出将如上所示 *使用JSoup！：）您需要了解，因为jsoup使用这种语法和概念来查询文档你需要看报纸。该文档甚至

有人知道我怎样才能提取出

以外的文本吗

（基本上也可以在其他元素中找到文本） `
在网页中。它必须是一个完整的时间顺序，因为它是如何显示在原始网页

除了

标签

之外，我的意思还包括从

中提取标题中的单词，以及

！例如，给定一个html网页


标题1
标题2
这是一段随机的段落
头3
这是另一个随机段落

*如果网页的主体中也有p个标签之后的标签，则会有点复杂

因此，所需的（按时间顺序）输出将如上所示

*使用JSoup！：）

您需要了解，因为jsoup使用这种语法和概念来查询文档

你需要看报纸。该文档甚至显示了一个适合您的代码片段的示例

Elements elements = doc.select("p > h1"); // Find a h1 directly following a p.

或者更一般地说：

Elements elements = doc.select("h1"); // Find all h1 elements.

然后循环元素集合。在每个元素上，提取元素自己的文本内容。

我强烈建议使用jQuery来实现这一点

使用jQuery函数获取不带html标记的文本。使用jQuery函数获取所有内容，包括html标记

因此，在html标记之间提取文本，您可以执行以下操作：

var text = $('html').text();

显示的html没有将h标记包含在p标记中。两者都是独立的元素。那么，您的意思是说需要将所有标记的值从一个p打印到另一个p，还是打印p标记的子元素的值？