Java 只需要从HTMLDOM元素中提取内容_Java_Html_String_Dom_Text Extraction

Java 只需要从HTMLDOM元素中提取内容

java html string dom

Java 只需要从HTMLDOM元素中提取内容,java,html,string,dom,text-extraction,Java,Html,String,Dom,Text Extraction,我需要从html元素中提取内容，如some text 在这个元素“some text”中，我只希望输出中没有任何尖括号比如说 LineNo:1<HTML> LineNo:2<HEAD> LineNo:3<TITLE>Your Title Here</TITLE> LineNo:4</HEAD> LineNo:5 <body> LineNo:6 Bodycontent Start LineNo:7 <div&

我需要从html元素中提取内容，如

some text

在这个元素“some text”中，我只希望输出中没有任何尖括号

比如说

LineNo:1<HTML>
LineNo:2<HEAD>
LineNo:3<TITLE>Your Title Here</TITLE>
LineNo:4</HEAD>
LineNo:5  <body>
LineNo:6  Bodycontent Start
LineNo:7    <div>
LineNo:8      div content start.
LineNo:9        <div> 
LineNo:10          subdiv content
LineNo:11        </div>
LineNo:12      div content end
LineNo:13    </div>
LineNo:14     body content end
LineNo:15  </body>
LineNo:16</HTML>

LineNo:1
线路号：2
行号：3您的标题在这里
线路号：4
线路号：5
行号：6 Bodycontent开始
线路号：7
行号：8 div内容开始。
线路号：9
行号：10细分电视内容
线路编号：11
行号：12 div内容结束
线路编号：13
行号：14正文内容结束
线路号：15
线路编号：16

我需要像这样的输出：起始行号是标记开口的行号内容是该元素的内容，不包括子元素的内容

起始行号：3，内容：您的标题此处内容起始行号：5，内容：正文内容开始正文内容结束起始行号：7，内容：div content start。div内容结束起始行号：9，内容：细分内容

谢谢

您可以将

replaceAll

与正则表达式一起使用

查看jsoup：
String myStr = ...;
String myStrExtracted = myStr.replaceAll("<[^<]+>", "");