Java HTMLCLEANER处理西班牙语字符
我使用HtmlCleaner库来解析/转换java中的HTML文件 似乎无法处理像“ÁáÍíñÓó218;Üü”这样的西班牙语字符 我可以在HtmlCleaner中设置任何属性来处理此解决方案或任何其他解决方案吗?下面是我用来调用它的代码:Java HTMLCLEANER处理西班牙语字符,java,html,htmlcleaner,Java,Html,Htmlcleaner,我使用HtmlCleaner库来解析/转换java中的HTML文件 似乎无法处理像“ÁáÍíñÓó218;Üü”这样的西班牙语字符 我可以在HtmlCleaner中设置任何属性来处理此解决方案或任何其他解决方案吗?下面是我用来调用它的代码: CleanerProperties props = new CleanerProperties(); props.setRecognizeUnicodeChars(true); java.io.File file = new java.io.File("C:
CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);
您可以将
UTF-8
更改为UTF-16
它将支持最大数量的字符。HtmlCleaner使用从JVM读取的默认字符集,除非指定。在Windows上,这将是Cp1512而不是UTF-8,这可能是它出错的地方 你也可以
- 在JVM起始行上指定
-Dfile.encoding=UTF-8
- 使用接受字符集的
重载HtmlCleaner.clean()
(如果项目中有谷歌番石榴,可以使用TagNode tagNode = new HtmlCleaner(props).clean(file, "UTF-8");
作为常量)Charsets.UTF_8
- 使用
重载,该重载接受已使用正确字符集构造的InputStreamReaderHtmlCleaner.clean()