如何获取层次结构中除内容之外的所有html标记?

如何获取层次结构中除内容之外的所有html标记?,html,ruby-on-rails,ruby,regex,Html,Ruby On Rails,Ruby,Regex,我想获得给定html内容的html标记模式或布局 e、 g:下面是给定的html内容 <p style="font-size: 11px"> <strong>Sample Director</strong><br> ABC Name<br> Test Sign Association<br> 12345 N. 85th Ave., Ste. D345<br> Test, NY  85308&l

我想获得给定html内容的html标记模式或布局

e、 g:下面是给定的html内容

<p style="font-size: 11px">
  <strong>Sample Director</strong><br>
  ABC Name<br>
  Test Sign Association<br>
  12345 N. 85th Ave., Ste. D345<br>
  Test, NY  85308<br>
  Wk.:  602-385-1234;  Cell:   602-079-1234<br>
  Fax:  602-987-1244<br>
  <a href="mailto:abce@test.org">abce@test.org</a> 
</p>

示例控制器
ABC名称
测试符号关联
圣彼得堡第85大道北12345号。D345
测试,纽约85308
工作编号:602-385-1234;单元格:602-079-1234
传真:602-987-1244

期望输出:

<p><strong></strong><br><br><br><br><a></a></p>





我已经检查了一些正则表达式和gem,但它们都提供了删除标记的解决方案。我试过使用
tr
,但结果只是


非常感谢您的帮助。

试试这个:

(<\/?\w+)(*SKIP)(*F)|[\w\s\.\:\-"'\=\@\,\;]+       // replace with ""(blank)  

(@Biffen好的,谢谢你提供了在语言上不使用正则表达式的有用信息。不过我也使用了Nokogiri来解析html,但它没有获取所有子节点标记的方法。有什么帮助吗?太好了……你能解释一下吗REGEX@Hetal昆蒂<代码>(@Avinash Raj我试过php。我不知道ruby。如果它对他有帮助,那么更好。ruby不支持上面的PCRE动词。好的,请帮助他。这个正则表达式是你的。你一问就给我答案。
  (<\/?\w+)(*SKIP)(*F)|[^<>]+