Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/393.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/78.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java JSOUP从属性中删除多次出现的单词_Java_Html_Parsing_Jsoup - Fatal编程技术网

Java JSOUP从属性中删除多次出现的单词

Java JSOUP从属性中删除多次出现的单词,java,html,parsing,jsoup,Java,Html,Parsing,Jsoup,假设内容如下: 您的输入HTML的初始引号已转义。这意味着,alt标记的值不是男子,而是“男子”。在alt标记之后,基本上有多个布尔属性,即男子和,男子等 然后JSoup将删除重复的布尔属性,因为它们没有任何效果。您应该将HTML更改为正确的格式,而不使用转义引号 <p><img src="https://abcd.com/pic.jpg" alt="man with a umbrella on terrace with lots of xyz" width="500" he

假设内容如下:

您的输入HTML的初始引号已转义。这意味着,alt标记的值不是
男子,而是
“男子”
。在alt标记之后,基本上有多个布尔属性,即
男子和
男子等

然后JSoup将删除重复的布尔属性,因为它们没有任何效果。您应该将HTML更改为正确的格式,而不使用转义引号

<p><img src="https://abcd.com/pic.jpg" alt="man with a umbrella on terrace with  lots of xyz" width="500" height="400" /></p>

在本地和System.out中运行此操作将生成正确的

<html>
 <head></head>
 <body>
  <p><img src="https://abcd.com/pic.jpg" alt="man with a umbrella on terrace with lots of xyz" width="500" height="400"></p>
 </body>
</html>


您的输入HTML的初始引号已转义。这意味着,您的alt标记的值是
“man
,而不是
在有大量xyz的平台上撑着伞的人。在alt标记之后,基本上有多个布尔属性,分别是
with
a
,等等

然后JSoup将剥离重复的布尔属性,因为它们没有任何效果。您应该将HTML更改为正确的格式,不带转义引号

<p><img src="https://abcd.com/pic.jpg" alt="man with a umbrella on terrace with  lots of xyz" width="500" height="400" /></p>

在本地和System.out中运行此操作将生成正确的

<html>
 <head></head>
 <body>
  <p><img src="https://abcd.com/pic.jpg" alt="man with a umbrella on terrace with lots of xyz" width="500" height="400"></p>
 </body>
</html>


原始内容是否为HTML?或者一个
字符串
?也就是说,您是从HTML文件中读取的吗?原始内容是HTML吗?或者一个
字符串
?也就是说,您正在从HTML文件中读取吗?谢谢您的帮助。HTML编辑器也验证了您的观点。我用StringEscapeUtils.escapeJava去掉了/“。谢谢你们的帮助。HTML编辑器也验证了你们的观点。我用StringEscapeUtils.escapeJava去掉了/”。