使用html特殊字符解析Java SAX Xml解析器[致命错误]

使用html特殊字符解析Java SAX Xml解析器[致命错误],java,xml-parsing,sax,Java,Xml Parsing,Sax,如果html页面包含特殊字符,如®(®)或 ,则无法将其解析为xml。只要html文件包含以下特殊字符之一,它就会提示这是一个错误,如下所示“[致命错误]279:15实体“reg”被引用,但未声明”。是否有任何解决方案(不编辑html文件)可以忽略这些特殊字符?旁注:html不是XML,您最好找到合适的解析器(对于.Net,它可能是HtmlAgilityPack,但我不知道Java world提供了什么)。也就是说,textmore是可以的HTML,但不是可接受的XML。Jeric

如果html页面包含特殊字符,如®(®)或 ,则无法将其解析为xml。只要html文件包含以下特殊字符之一,它就会提示这是一个错误,如下所示“[致命错误]279:15实体“reg”被引用,但未声明”。是否有任何解决方案(不编辑html文件)可以忽略这些特殊字符?

旁注:html不是XML,您最好找到合适的解析器(对于.Net,它可能是HtmlAgilityPack,但我不知道Java world提供了什么)。也就是说,
textmore
是可以的HTML,但不是可接受的XML。Jericho是Java HTML解析器。