Html与php代码保持一致,XHTML不是有效的XML
我正在使用将HTML转换为XHTML,我希望稍后使用XSLT转换此XHTML 不幸的是,我试图解析一个techcrunch站点(只是为了测试)。techcrunch站点包含php代码,HTML tidy使用此php代码生成无效的XML文件 简化输入文件Html与php代码保持一致,XHTML不是有效的XML,html,xhtml,tidy,htmltidy,Html,Xhtml,Tidy,Htmltidy,我正在使用将HTML转换为XHTML,我希望稍后使用XSLT转换此XHTML 不幸的是,我试图解析一个techcrunch站点(只是为了测试)。techcrunch站点包含php代码,HTML tidy使用此php代码生成无效的XML文件 简化输入文件dirty.htm: 和我的输出文件,带有HTML Tidycleaned.htm: 主要问题是您是否可以选择从链接中删除onclick,并将onclick脚本移动到某些脚本标记之间?Tidy只有一个选项。我怀疑这是因为PHP块位于一个属
dirty.htm
:
和我的输出文件,带有HTML Tidycleaned.htm
:
主要问题是
您是否可以选择从链接中删除onclick,并将onclick脚本移动到某些脚本标记之间?Tidy只有一个选项。我怀疑这是因为PHP块位于一个属性(未关闭)内而引起混淆
它可能有更好的机会:
<a href="..." onclick="<?php tc_set_omniture_attr("post_widget_crunchbase") ?>">Google</a>
对不起,我不确定还有什么可以做的。希望这能有所帮助。不。在这之前没有重组的机会。因为我在使用HTML之前不知道HTML是什么样子的。
tidy -quiet -config tidyconfig.cfg -output cleaned.htm dirty.htm
<a href="..." onclick="<?php tc_set_omniture_attr("post_widget_crunchbase") ?>">Google</a>