C# 用于删除复杂html标记的正则表达式

C# 用于删除复杂html标记的正则表达式,c#,.net,regex,html-parsing,C#,.net,Regex,Html Parsing,我使用正则表达式来检索html页面的文本。我正在使用以下正则表达式删除html标记: ]+> 问题是,此正则表达式无法在如下html标记上正常工作: <input type="button" onclick="if (a > b) do_somthing();"> 此正则表达式将与匹配将保留 我应该使用哪个正则表达式来匹配这些标记?实现这一点的更好、正确的方法是使用HTML解析器(如agility HTML pack)来解析HTML并根据需要使用。用正则表达式解析HTML

我使用正则表达式来检索html页面的文本。我正在使用以下正则表达式删除html标记:

]+>

问题是,此正则表达式无法在如下html标记上正常工作:

<input type="button" onclick="if (a > b) do_somthing();">

此正则表达式将与
匹配
将保留


我应该使用哪个正则表达式来匹配这些标记?

实现这一点的更好、正确的方法是使用HTML解析器(如agility HTML pack)来解析HTML并根据需要使用。用正则表达式解析HTML很困难,容易出错


阅读更多信息:

实现这一点的更好、正确的方法是使用HTML解析器(如agility HTML pack)解析HTML并根据需要使用。用正则表达式解析HTML很困难,容易出错


阅读更多信息:

如上所述,阅读以下链接了解为什么正则表达式不能在HTML上工作->


如评论中所建议的,使用C#HTML解析器,如上文所述,阅读下面的链接为什么正则表达式不能在HTML上工作->


正如评论中所建议的,使用C#HTML解析器,例如..

为什么要使用正则表达式删除这些HTML标记?不要使用正则表达式(强制)。看一看前面的问题,看看如何最好地用C#解析HTML。我投票结束这个问题,因为它是关于用regex解析HTML的。为什么要用regex删除这些HTML标记?不要使用正则表达式(强制)。看看前面的问题,看看如何最好地用C#解析HTML。我投票结束这个问题,因为它是关于用正则表达式解析HTML的