Java 从HTML页面中提取段落

Java 从HTML页面中提取段落,java,jsoup,paragraphs,Java,Jsoup,Paragraphs,使用Jsoup,我想从HTML页面中提取所有段落,即和/code>之间的任何段落 我如何做到这一点?你能做到: myDocument.getElementsByTag('p') 然后,您可以迭代返回的元素并获取它们的数据/text/ownText/您认为与您想要做的事情最相关的任何内容 你就不能这样做: myDocument.getElementsByTag('p') 然后,您可以迭代返回的元素并获取它们的数据/text/ownText/您认为与您想要做的事情最相关的任何内容 在我想

使用Jsoup,我想从HTML页面中提取所有段落,即
/code>之间的任何段落

我如何做到这一点?

你能做到:

myDocument.getElementsByTag('p') 

然后,您可以迭代返回的元素并获取它们的数据/text/ownText/您认为与您想要做的事情最相关的任何内容

你就不能这样做:

myDocument.getElementsByTag('p') 

然后,您可以迭代返回的元素并获取它们的数据/text/ownText/您认为与您想要做的事情最相关的任何内容


在我想提取段落中的URL之后,我可以得到URL,但不能得到卷轴URL。我想要的是:不是你可以迭代返回的集合,看看是否有任何元素是标记。我只想得到父p标记。也就是说,如果任何p有p作为父项,它不应该包含在段落的返回列表中。在我想提取段落中的URL之后,我可以有URL,但不能有卷轴URL。我想要的是:不是你可以迭代返回的集合,看看是否有任何元素是标记。我只想得到父p标记。也就是说,如果任何p将p作为父项,则不应将其包括在第段的返回列表中。