C# 除去某些HTML标记之外的所有HTML标记?
我有一个要求,我需要从一大块HTML中去掉所有标记,这就是标记汤,基本上类似于: 等等 我需要去掉所有的标签,除了标签,但是对于那些标签,我需要去掉诸如style=之类的属性,并且只保留它们作为标签 我目前正在使用正则表达式剥离所有标记: 公共静态字符串StripHtmlstring输入=>Regex.Replaceinput,string.Empty 有什么办法吗C# 除去某些HTML标记之外的所有HTML标记?,c#,parsing,asp.net-core,.net-core,asp.net-core-mvc,C#,Parsing,Asp.net Core,.net Core,Asp.net Core Mvc,我有一个要求,我需要从一大块HTML中去掉所有标记,这就是标记汤,基本上类似于: 等等 我需要去掉所有的标签,除了标签,但是对于那些标签,我需要去掉诸如style=之类的属性,并且只保留它们作为标签 我目前正在使用正则表达式剥离所有标记: 公共静态字符串StripHtmlstring输入=>Regex.Replaceinput,string.Empty 有什么办法吗 为此,我会使用定制的C库,但我在Linux上使用.Net Core,因此许多需要完整框架的库(如AngleSharp)都不适合我
为此,我会使用定制的C库,但我在Linux上使用.Net Core,因此许多需要完整框架的库(如AngleSharp)都不适合我。将为您提供除段落之外的所有标记。因此,您的程序可以删除此正则表达式的所有匹配项,并用空段落标记替换其余标记all p