删除除<;a>;及<;img>;使用c#和regex的标记
我正在处理html代码块,但我只对删除除<;a>;及<;img>;使用c#和regex的标记,c#,regex,C#,Regex,我正在处理html代码块,但我只对和标记感兴趣。您能否建议如何使用c#和regex从输入字符串中删除除和标记以外的任何内容 我确实尝试过HAP(HTML敏捷包),但解析一些内容会遇到StackOverflowException 伙计们,我不是在寻求HTML敏捷包方面的帮助。我在寻找正则表达式解决方案。老实说,正如大家在评论中所说,我不建议您使用正则表达式解析HTML(这是一种规则),但如果您确实需要它。。。(无论出于何种原因……) 我想说的是,您可以解析该字符串并获取HTML字符串上的每个and
和
标记感兴趣。您能否建议如何使用c#和regex从输入字符串中删除除
和
标记以外的任何内容
我确实尝试过HAP(HTML敏捷包),但解析一些内容会遇到StackOverflowException
伙计们,我不是在寻求HTML敏捷包方面的帮助。我在寻找正则表达式解决方案。老实说,正如大家在评论中所说,我不建议您使用正则表达式解析HTML(这是一种规则),但如果您确实需要它。。。(无论出于何种原因……) 我想说的是,您可以解析该字符串并获取HTML字符串上的每个and标记,然后将其保存在列表中 正则表达式非常简单(你可以通过学习一点正则表达式来扩展它们。这并不难,我不会为你做所有的工作,主要是在我不知道HTML是什么样子的时候)
“”
"
对于C#代码本身,我相信您可以很容易地找到它。如果您只想
使用其中两个和alternation操作符创建一个正则表达式|
(<img.+?>|<a.+?>.+?<\/a>)
(|.+?)
在替换中,您可以使用组\1我尝试过HAP(HTML Agility Pack),但解析某些内容会遇到StackOverflowException。我尝试过HAP(HTML Agility Pack),但解析某些内容会遇到StackOverflowException。您尝试过任何正则表达式吗?我对正则表达式不太熟悉,因此我在这里提出了问题。我看到您试图从接收的字符串中删除所有不存在的内容,您不能从中实际删除和吗?不,作为输出,我需要一个包含所有a和img标记列表的字符串.
(<img.+?>|<a.+?>.+?<\/a>)