Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/73.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 从使用Jsoup检索的文本中删除制表字符_Java_Html_String_Jsoup - Fatal编程技术网

Java 从使用Jsoup检索的文本中删除制表字符

Java 从使用Jsoup检索的文本中删除制表字符,java,html,string,jsoup,Java,Html,String,Jsoup,我正在使用Jsoup解析一个HTML文件。当获取h1的文本时,它还检索表格和换行符 “Name”是我试图从这里检索的内容: <h1>\n\t\t\tNAME\n\t\t</h1> 但结果是: NTTTTNAMETNTTT 如果没有所有的表格和换行符,如何获取文本?似乎html确实包含字符串“\t”和“\n”。在这种情况下,您可能应该在解析之前清除源代码。这样做应该可以: String html = Jsoup.connect(URL).userAgent("Mozil

我正在使用Jsoup解析一个HTML文件。当获取h1的文本时,它还检索表格和换行符

“Name”是我试图从这里检索的内容:

<h1>\n\t\t\tNAME\n\t\t</h1>
但结果是:

NTTTTNAMETNTTT

如果没有所有的表格和换行符,如何获取文本?

似乎html确实包含字符串
“\t”
“\n”
。在这种情况下,您可能应该在解析之前清除源代码。这样做应该可以:

String html = Jsoup.connect(URL).userAgent("Mozilla/5.0").execute().body();
html = html.replaceAll("\\\\[nt]", "");
Document doc = Jsoup.parse(html);

这应该行得通。文档是否为document类型?可能会提供更多的代码或实际的html。看起来您的文档实际上包含字符“\”后跟“n”、字符“\”后跟“t”等等,而不是换行符和制表符。你能证实这一点吗?是的,我就是这么想的。我正在打印原始字符串,它会打印“\t”和“\n”。我怎样才能删除这些字符呢?
String html = Jsoup.connect(URL).userAgent("Mozilla/5.0").execute().body();
html = html.replaceAll("\\\\[nt]", "");
Document doc = Jsoup.parse(html);