C# 字符串删除HTML

C# 字符串删除HTML,c#,html,regex,C#,Html,Regex,我希望使用正则表达式从字符串中删除html标记和“等”。我的正则表达式是删除html标记,而不是前面提到的其他标记。我正在使用.NET4 谢谢 代码: String result=Regex.Replace(blogText,@“]*>”,String.Empty); 不要使用正则表达式,请使用HTML敏捷包: 如果要在已创建的基础上进行构建,可以将其更改为以下内容: String result = Regex.Replace(blogText, @"<[^>]*>|&

我希望使用正则表达式从字符串中删除html标记和“等”。我的正则表达式是删除html标记,而不是前面提到的其他标记。我正在使用.NET4

谢谢

代码:

String result=Regex.Replace(blogText,@“]*>”,String.Empty);

不要使用正则表达式,请使用HTML敏捷包:


如果要在已创建的基础上进行构建,可以将其更改为以下内容:

String result = Regex.Replace(blogText, @"<[^>]*>|&\w+", String.Empty);
String result=Regex.Replace(blogText,@“]*>&\w+”,String.Empty);
这意味着

  • 按照您的定义匹配标记
  • …或匹配一个
    &
    ,后跟至少一个单词字符
    \w
    ——尽可能多

  • 这两种方法在所有恶劣的情况下都不管用,但通常都管用。

    在继续之前,请看一下这里:Regex和HTML从来都不是很好的组合。看看@这可以用HtmlAgilityPack轻松完成,请参阅
    String result = Regex.Replace(blogText, @"<[^>]*>|&\w+", String.Empty);