Java 如何提取网页JSoup中的所有文本

Java 如何提取网页JSoup中的所有文本,java,html,jsoup,Java,Html,Jsoup,有人知道我怎样才能提取出以外的文本吗 (基本上也可以在其他元素中找到文本) ` 在网页中。它必须是一个完整的时间顺序,因为它是如何显示在原始网页 除了标签之外,我的意思还包括从中提取标题中的单词,以及! 例如,给定一个html网页 标题1 标题2 这是一段随机的段落 头3 这是另一个随机段落 *如果网页的主体中也有p个标签之后的标签,则会有点复杂 因此,所需的(按时间顺序)输出将如上所示 *使用JSoup!:) 您需要了解,因为jsoup使用这种语法和概念来查询文档 你需要看报纸。该文档甚至

有人知道我怎样才能提取出
以外的文本吗

(基本上也可以在其他元素中找到文本) `
在网页中。它必须是一个完整的时间顺序,因为它是如何显示在原始网页

除了
标签
之外,我的意思还包括从
中提取标题中的单词,以及
! 例如,给定一个html网页


标题1
标题2
这是一段随机的段落

头3 这是另一个随机段落

*如果网页的主体中也有p个标签之后的标签,则会有点复杂

因此,所需的(按时间顺序)输出将如上所示

*使用JSoup!:)

您需要了解,因为jsoup使用这种语法和概念来查询文档

你需要看报纸。该文档甚至显示了一个适合您的代码片段的示例

Elements elements = doc.select("p > h1"); // Find a h1 directly following a p.
或者更一般地说:

Elements elements = doc.select("h1"); // Find all h1 elements.

然后循环元素集合。在每个元素上,提取元素自己的文本内容。

我强烈建议使用jQuery来实现这一点

使用jQuery函数获取不带html标记的文本。 使用jQuery函数获取所有内容,包括html标记

因此,在html标记之间提取文本,您可以执行以下操作:

var text = $('html').text();

显示的html没有将h标记包含在p标记中。两者都是独立的元素。那么,您的意思是说需要将所有标记的值从一个p打印到另一个p,还是打印p标记的子元素的值?