C# 使用正则表达式查找HTML中包含内容的标记

C# 使用正则表达式查找HTML中包含内容的标记,c#,regex,C#,Regex,我试图使用正则表达式在HTML字符串中查找标记文章及其所有内容 我可以成功地将open标记与attrs匹配:技术不适合我 请提供帮助。您通常不能使用正则表达式解析HTML。但是,在受约束的场景中(即,当输入遵循刚性结构时),您可能可以不受约束。在您的情况下,可以使用以下正则表达式,前提是: 标记不是自动关闭的 元素不包含其他子体 字符串请共享完整信息。你遇到了什么问题?为什么不能使用HTML解析器API呢?你是说,c#,为什么不使用Linq to Xml呢。当然,我们需要更多关于xml结构的细

我试图使用正则表达式在HTML字符串中查找标记
文章
及其所有内容

我可以成功地将open标记与attrs匹配:
技术不适合我


请提供帮助。

您通常不能使用正则表达式解析HTML。但是,在受约束的场景中(即,当输入遵循刚性结构时),您可能可以不受约束。在您的情况下,可以使用以下正则表达式,前提是:

  • 标记不是自动关闭的
  • 元素不包含其他
    子体

  • 字符串
    请共享完整信息。你遇到了什么问题?为什么不能使用HTML解析器API呢?你是说,c#,为什么不使用Linq to Xml呢。当然,我们需要更多关于xml结构的细节来回答。可能值得使用HTML agility pack之类的东西,因为仅使用正则表达式就很难做到这一点。强制性参考:当我获得所有必要的标记时,我计划使用Linq2Xml。我试图解析的页面的DOM结构不是使用XElement.parse进行解析的。
    
    var matches = Regex.Matches(html, @"<article.*?</article>", RegexOptions.Singleline);