C# 字符串删除HTML
我希望使用正则表达式从字符串中删除html标记和“等”。我的正则表达式是删除html标记,而不是前面提到的其他标记。我正在使用.NET4 谢谢 代码:C# 字符串删除HTML,c#,html,regex,C#,Html,Regex,我希望使用正则表达式从字符串中删除html标记和“等”。我的正则表达式是删除html标记,而不是前面提到的其他标记。我正在使用.NET4 谢谢 代码: String result=Regex.Replace(blogText,@“]*>”,String.Empty); 不要使用正则表达式,请使用HTML敏捷包: 如果要在已创建的基础上进行构建,可以将其更改为以下内容: String result = Regex.Replace(blogText, @"<[^>]*>|&
String result=Regex.Replace(blogText,@“]*>”,String.Empty);
不要使用正则表达式,请使用HTML敏捷包:
如果要在已创建的基础上进行构建,可以将其更改为以下内容:
String result = Regex.Replace(blogText, @"<[^>]*>|&\w+", String.Empty);
String result=Regex.Replace(blogText,@“]*>&\w+”,String.Empty);
这意味着
&
,后跟至少一个单词字符\w
——尽可能多这两种方法在所有恶劣的情况下都不管用,但通常都管用。在继续之前,请看一下这里:Regex和HTML从来都不是很好的组合。看看@这可以用HtmlAgilityPack轻松完成,请参阅
String result = Regex.Replace(blogText, @"<[^>]*>|&\w+", String.Empty);