Java 如何剥离除“以外的HTML属性”;src";及;alt";在爪哇
如何使用Java从字符串中的HTML标记中除去除“alt”和“src”之外的所有属性 而且。。如何从字符串中的所有“src”属性获取内容 :)您可以:Java 如何剥离除“以外的HTML属性”;src";及;alt";在爪哇,java,html,string,strip,Java,Html,String,Strip,如何使用Java从字符串中的HTML标记中除去除“alt”和“src”之外的所有属性 而且。。如何从字符串中的所有“src”属性获取内容 :)您可以: 实施一项战略 创建一个文档,对其进行遍历和修剪,然后转换回HTML;或 在XSLT(假设您的HTML是XHTML格式,或者可以转换为XHTML格式,比如)中使用一个附加的例子来删除您不想要的属性 无论你做什么,都不要尝试使用正则表达式。好的,用某种方法解决了这个问题 使用HTMLCleaner库将输入数据解析为有效格式 然后我使用DOM解析器
- 实施一项战略李>
- 创建一个文档,对其进行遍历和修剪,然后转换回HTML;或
- 在XSLT(假设您的HTML是XHTML格式,或者可以转换为XHTML格式,比如)中使用一个附加的例子来删除您不想要的属性
无论你做什么,都不要尝试使用正则表达式。好的,用某种方法解决了这个问题 使用HTMLCleaner库将输入数据解析为有效格式 然后我使用DOM解析器对所有内容进行迭代,并去除所有不允许的标记和属性 (还有一些丑陋的小黑客;)
这是一项很大的工作。我曾尝试使用DOM解析器,但这要求html标记完全对齐,就像在xml文件中一样。我在用户提供的输入数据上使用它,它可以是任何格式!