Java 从HTML页面中提取段落_Java_Jsoup_Paragraphs

Java 从HTML页面中提取段落

java

Java 从HTML页面中提取段落,java,jsoup,paragraphs,Java,Jsoup,Paragraphs,使用Jsoup，我想从HTML页面中提取所有段落，即和/code>之间的任何段落我如何做到这一点？你能做到： myDocument.getElementsByTag('p') 然后，您可以迭代返回的元素并获取它们的数据/text/ownText/您认为与您想要做的事情最相关的任何内容你就不能这样做： myDocument.getElementsByTag('p') 然后，您可以迭代返回的元素并获取它们的数据/text/ownText/您认为与您想要做的事情最相关的任何内容在我想

使用Jsoup，我想从HTML页面中提取所有段落，即

和

/code>之间的任何段落
我如何做到这一点？
你能做到：
myDocument.getElementsByTag('p') 


然后，您可以迭代返回的元素并获取它们的数据/text/ownText/您认为与您想要做的事情最相关的任何内容
你就不能这样做：
myDocument.getElementsByTag('p') 


然后，您可以迭代返回的元素并获取它们的数据/text/ownText/您认为与您想要做的事情最相关的任何内容
在我想提取段落中的URL之后，我可以得到URL，但不能得到卷轴URL。我想要的是：不是你可以迭代返回的集合，看看是否有任何元素是标记。我只想得到父p标记。也就是说，如果任何p有p作为父项，它不应该包含在段落的返回列表中。在我想提取段落中的URL之后，我可以有URL，但不能有卷轴URL。我想要的是：不是你可以迭代返回的集合，看看是否有任何元素是标记。我只想得到父p标记。也就是说，如果任何p将p作为父项，则不应将其包括在第段的返回列表中。