tinyMCE编辑器或Jsoup能否修复html标记错误?
我在我的项目中使用tinymce编辑器。编辑器生成的HTML标记使用Jsoup(v.1.7.2)进行解析,并使用ApacheFop生成pdf。 当用户使用编辑器本身的功能时,它会生成有效的html标记,但如果某个用户使用该工具直接包含来自其他源的源代码,比如说他输入了tinyMCE编辑器或Jsoup能否修复html标记错误?,tinymce,jsoup,tinymce-4,w3c-validation,Tinymce,Jsoup,Tinymce 4,W3c Validation,我在我的项目中使用tinymce编辑器。编辑器生成的HTML标记使用Jsoup(v.1.7.2)进行解析,并使用ApacheFop生成pdf。 当用户使用编辑器本身的功能时,它会生成有效的html标记,但如果某个用户使用该工具直接包含来自其他源的源代码,比如说他输入了 <ul> <ul> <ul> <li> one </li> <li>
<ul>
<ul>
<ul>
<li>
one
</li>
<li>
two
</li>
<li>
three
</li>
<li>
four
</li>
</ul>
</ul></ul>
在tinymce编辑器或Jsoup解析器中修复html标记是否可行,如果没有其他方法的话?您可以尝试使用JTidy
Tidy tidy = new Tidy();
tidy.setXHTML(true);
final InputStream inputStream = new FileInputStream("input.html");
tidy.parse(inputStream, System.out);
这至少解决了ul li格式的问题!!
Error: Element ul not allowed as child of element ul in this context.
Tidy tidy = new Tidy();
tidy.setXHTML(true);
final InputStream inputStream = new FileInputStream("input.html");
tidy.parse(inputStream, System.out);