Java 从使用Jsoup检索的文本中删除制表字符_Java_Html_String_Jsoup

Java 从使用Jsoup检索的文本中删除制表字符

java html string

Java 从使用Jsoup检索的文本中删除制表字符,java,html,string,jsoup,Java,Html,String,Jsoup,我正在使用Jsoup解析一个HTML文件。当获取h1的文本时，它还检索表格和换行符 “Name”是我试图从这里检索的内容： <h1>\n\t\t\tNAME\n\t\t</h1> 但结果是： NTTTTNAMETNTTT 如果没有所有的表格和换行符，如何获取文本？似乎html确实包含字符串“\t”和“\n”。在这种情况下，您可能应该在解析之前清除源代码。这样做应该可以： String html = Jsoup.connect(URL).userAgent("Mozil

我正在使用Jsoup解析一个HTML文件。当获取h1的文本时，它还检索表格和换行符

“Name”是我试图从这里检索的内容：

<h1>\n\t\t\tNAME\n\t\t</h1>

但结果是：

NTTTTNAMETNTTT

如果没有所有的表格和换行符，如何获取文本？

似乎html确实包含字符串

“\t”

和

“\n”

。在这种情况下，您可能应该在解析之前清除源代码。这样做应该可以：

String html = Jsoup.connect(URL).userAgent("Mozilla/5.0").execute().body();
html = html.replaceAll("\\\\[nt]", "");
Document doc = Jsoup.parse(html);

这应该行得通。文档是否为document类型？可能会提供更多的代码或实际的html。看起来您的文档实际上包含字符“\”后跟“n”、字符“\”后跟“t”等等，而不是换行符和制表符。你能证实这一点吗？是的，我就是这么想的。我正在打印原始字符串，它会打印“\t”和“\n”。我怎样才能删除这些字符呢？

String html = Jsoup.connect(URL).userAgent("Mozilla/5.0").execute().body();
html = html.replaceAll("\\\\[nt]", "");
Document doc = Jsoup.parse(html);