Java 从使用Jsoup检索的文本中删除制表字符
我正在使用Jsoup解析一个HTML文件。当获取h1的文本时,它还检索表格和换行符 “Name”是我试图从这里检索的内容:Java 从使用Jsoup检索的文本中删除制表字符,java,html,string,jsoup,Java,Html,String,Jsoup,我正在使用Jsoup解析一个HTML文件。当获取h1的文本时,它还检索表格和换行符 “Name”是我试图从这里检索的内容: <h1>\n\t\t\tNAME\n\t\t</h1> 但结果是: NTTTTNAMETNTTT 如果没有所有的表格和换行符,如何获取文本?似乎html确实包含字符串“\t”和“\n”。在这种情况下,您可能应该在解析之前清除源代码。这样做应该可以: String html = Jsoup.connect(URL).userAgent("Mozil
<h1>\n\t\t\tNAME\n\t\t</h1>
但结果是:
NTTTTNAMETNTTT
如果没有所有的表格和换行符,如何获取文本?似乎html确实包含字符串
“\t”
和“\n”
。在这种情况下,您可能应该在解析之前清除源代码。这样做应该可以:
String html = Jsoup.connect(URL).userAgent("Mozilla/5.0").execute().body();
html = html.replaceAll("\\\\[nt]", "");
Document doc = Jsoup.parse(html);
这应该行得通。文档是否为document类型?可能会提供更多的代码或实际的html。看起来您的文档实际上包含字符“\”后跟“n”、字符“\”后跟“t”等等,而不是换行符和制表符。你能证实这一点吗?是的,我就是这么想的。我正在打印原始字符串,它会打印“\t”和“\n”。我怎样才能删除这些字符呢?
String html = Jsoup.connect(URL).userAgent("Mozilla/5.0").execute().body();
html = html.replaceAll("\\\\[nt]", "");
Document doc = Jsoup.parse(html);