HTML标记替换/删除

HTML标记替换/删除,html,regex,Html,Regex,我试图找到一种方法来清理一些非常草率的HTML(机器生成的) 我的假设是这个解决方案的正则表达式,但我不确定从哪里开始 类似HTML的 the <div>government’s</div> “risk management” efforts. As&nbsp;<br /> <span style="line-height:1.6em">critical infrastructure provides</span><br&

我试图找到一种方法来清理一些非常草率的HTML(机器生成的)

我的假设是这个解决方案的正则表达式,但我不确定从哪里开始

类似HTML的

the <div>government’s</div> “risk management” efforts. As&nbsp;<br />
<span style="line-height:1.6em">critical infrastructure provides</span><br>
the government's "risk management" efforts. As critical infrastructure provides
这意味着更换或删除几个不同的标记

&nbsp;   = ' '
<br />   = ' '
<br>     = ' '
“        = "
”        = "
’        = '
<span>   = REMOVE
<div>    = REMOVE
style    = REMOVE
=''

=''
='' “ = " ” = " ’ = ' =移除 =移除 样式=删除
我有几个不同的文本编辑器(升华文本、TextMate等),我愿意使用应用程序、applescript或其他任何东西来保存,而不必手动搜索其中的每一个

感谢您的帮助。

标记将其包装起来,获取其内部html,然后执行
字符串。替换

<span id="test">
the
<div>government’s</div>“risk management” efforts. As&nbsp;
<br />
<span style="line-height:1.6em">critical infrastructure provides</span>

<br>
</span>

var cleanText = test.innerHtml.replace("<div>","");

这个
政府的“风险管理”努力。作为

关键基础设施提供
var cleanText=test.innerHtml.replace(“,”);

或者只需使用
innerText
,它将去除所有标签。

使用Sublime Text,您可以通过软件包控制安装插件,然后

  • 选择升华文本中的所有输入字符串
  • 输入ctrl+shift+p(windows),选择“剪贴板:复制纯文本”
  • “ctrl+shift+p”再次选择“剪贴板:粘贴纯文本”
这将按照您的预期工作,但正如您所看到的,这有点烦人,您可以自己扩展此插件或安装现有插件, 我从原点分叉,做了一些修改以满足您的要求。 您可以将草率的html复制到任何地方,然后通过快捷面板(ctrl+shift+p)使用命令“剪贴板:粘贴带html标记的纯文本”或绑定任何您喜欢的快捷方式查看。。