使用C#如何获取网页上所有脚本标记（及其内容）的列表/数组？_C#_Parsing_Screen Scraping

使用C#如何获取网页上所有脚本标记（及其内容）的列表/数组？

c# parsing

使用C#如何获取网页上所有脚本标记（及其内容）的列表/数组？,c#,parsing,screen-scraping,C#,Parsing,Screen Scraping,我使用HttpWebRequest将远程网页放入一个字符串中，我想列出它的所有脚本标记（及其内容）以进行解析最好的方法是什么？最好的方法是使用HTML解析器，如从网站：它是一个.NET代码库，允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似，但适用于HTML文档（或流）示例应用程序：页面固定或生成。您可以按照自己的方式修复页面、修改DOM、添加节点、复制节点，以及。。。你说吧网络扫描仪。您可以通过大量XPA

我使用HttpWebRequest将远程网页放入一个字符串中，我想列出它的所有脚本标记（及其内容）以进行解析

最好的方法是什么？

最好的方法是使用HTML解析器，如

从网站：

它是一个.NET代码库，允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似，但适用于HTML文档（或流）

示例应用程序：

页面固定或生成。您可以按照自己的方式修复页面、修改DOM、添加节点、复制节点，以及。。。你说吧
网络扫描仪。您可以通过大量XPATH查询轻松访问img/src或a/hrefs
网络刮刀。例如，您可以轻松地将任何现有网页废弃到RSS提要中，仅使用XSLT文件作为绑定。本文提供了一个例子

使用XML解析器获取所有脚本标记及其内容。

如果HTML也不是格式良好的XML（想想有效的HTML标记，如

），会破坏XML解析器。