使用C#如何获取网页上所有脚本标记(及其内容)的列表/数组?
我使用HttpWebRequest将远程网页放入一个字符串中,我想列出它的所有脚本标记(及其内容)以进行解析使用C#如何获取网页上所有脚本标记(及其内容)的列表/数组?,c#,parsing,screen-scraping,C#,Parsing,Screen Scraping,我使用HttpWebRequest将远程网页放入一个字符串中,我想列出它的所有脚本标记(及其内容)以进行解析 最好的方法是什么?最好的方法是使用HTML解析器,如 从网站: 它是一个.NET代码库,允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似,但适用于HTML文档(或流) 示例应用程序: 页面固定或生成。您可以按照自己的方式修复页面、修改DOM、添加节点、复制节点,以及。。。你说吧 网络扫描仪。您可以通过大量XPA
最好的方法是什么?最好的方法是使用HTML解析器,如 从网站: 它是一个.NET代码库,允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似,但适用于HTML文档(或流) 示例应用程序:
- 页面固定或生成。您可以按照自己的方式修复页面、修改DOM、添加节点、复制节点,以及。。。你说吧
- 网络扫描仪。您可以通过大量XPATH查询轻松访问img/src或a/hrefs
- 网络刮刀。例如,您可以轻松地将任何现有网页废弃到RSS提要中,仅使用XSLT文件作为绑定。本文提供了一个例子
使用XML解析器获取所有脚本标记及其内容。
如果HTML也不是格式良好的XML(想想有效的HTML标记,如
),会破坏XML解析器。