如何在java中从HTML转换为UTF-8
我有一个ASCII字符串,带有HTML实体,如:如何在java中从HTML转换为UTF-8,java,html,utf-8,Java,Html,Utf 8,我有一个ASCII字符串,带有HTML实体,如: à ¨ ç 我需要这个字符串不包含这些实体,并将它们转换为UTF-8字符。 用java有什么简单的方法可以做到这一点吗 其中: Clazz.method("aà","UTF-8") 返回“a” 或者类似的东西?看看。显然,它理解HTML4中定义的所有字符实体。您的意思是用à;代替“a”?例如,您使用的不是“c'est-a-dire”,而是“c
à
¨
ç
我需要这个字符串不包含这些实体,并将它们转换为UTF-8字符。
用java有什么简单的方法可以做到这一点吗
其中:
Clazz.method("aà","UTF-8")
返回“a”
或者类似的东西?看看。显然,它理解HTML4中定义的所有字符实体。您的意思是用à;代替“a”?例如,您使用的不是“c'est-a-dire”,而是“c'est-agrave;-dire”?(你知道ASCII只定义了128个代码点,对吗?“a”不是ASCII字符)好吧,我编辑了你的帖子,看看你的问题是编码问题。你问这个问题的方式有点奇怪,因为HTML和UTF-8是两个完全不同的东西——HTML是一种文件格式,而UTF-8是一种字符编码。HTML文件有一个字符编码,也就是说,您可以有一个UTF-8编码、ISO-8859-1编码等的HTML文件。我有HTML(只有ASCII字符),我想要纯文本。可能存在重音,因此必须选择编码。我需要UTF-8。