HTML标记替换/删除
我试图找到一种方法来清理一些非常草率的HTML(机器生成的) 我的假设是这个解决方案的正则表达式,但我不确定从哪里开始 类似HTML的HTML标记替换/删除,html,regex,Html,Regex,我试图找到一种方法来清理一些非常草率的HTML(机器生成的) 我的假设是这个解决方案的正则表达式,但我不确定从哪里开始 类似HTML的 the <div>government’s</div> “risk management” efforts. As <br /> <span style="line-height:1.6em">critical infrastructure provides</span><br&
the <div>government’s</div> “risk management” efforts. As <br />
<span style="line-height:1.6em">critical infrastructure provides</span><br>
the government's "risk management" efforts. As critical infrastructure provides
这意味着更换或删除几个不同的标记
= ' '
<br /> = ' '
<br> = ' '
“ = "
” = "
’ = '
<span> = REMOVE
<div> = REMOVE
style = REMOVE
=''
=''
=''
“ = "
” = "
’ = '
=移除
=移除
样式=删除
我有几个不同的文本编辑器(升华文本、TextMate等),我愿意使用应用程序、applescript或其他任何东西来保存,而不必手动搜索其中的每一个
感谢您的帮助。用
标记将其包装起来,获取其内部html,然后执行字符串。替换
<span id="test">
the
<div>government’s</div>“risk management” efforts. As
<br />
<span style="line-height:1.6em">critical infrastructure provides</span>
<br>
</span>
var cleanText = test.innerHtml.replace("<div>","");
这个
政府的“风险管理”努力。作为
关键基础设施提供
var cleanText=test.innerHtml.replace(“,”);
或者只需使用innerText
,它将去除所有标签。使用Sublime Text,您可以通过软件包控制安装插件,然后
- 选择升华文本中的所有输入字符串
- 输入ctrl+shift+p(windows),选择“剪贴板:复制纯文本”
- “ctrl+shift+p”再次选择“剪贴板:粘贴纯文本”
这将按照您的预期工作,但正如您所看到的,这有点烦人,您可以自己扩展此插件或安装现有插件,
我从原点分叉,做了一些修改以满足您的要求。
您可以将草率的html复制到任何地方,然后通过快捷面板(ctrl+shift+p)使用命令“剪贴板:粘贴带html标记的纯文本”或绑定任何您喜欢的快捷方式查看。。