Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/258.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用C#如何获取网页上所有脚本标记(及其内容)的列表/数组?_C#_Parsing_Screen Scraping - Fatal编程技术网

使用C#如何获取网页上所有脚本标记(及其内容)的列表/数组?

使用C#如何获取网页上所有脚本标记(及其内容)的列表/数组?,c#,parsing,screen-scraping,C#,Parsing,Screen Scraping,我使用HttpWebRequest将远程网页放入一个字符串中,我想列出它的所有脚本标记(及其内容)以进行解析 最好的方法是什么?最好的方法是使用HTML解析器,如 从网站: 它是一个.NET代码库,允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似,但适用于HTML文档(或流) 示例应用程序: 页面固定或生成。您可以按照自己的方式修复页面、修改DOM、添加节点、复制节点,以及。。。你说吧 网络扫描仪。您可以通过大量XPA

我使用HttpWebRequest将远程网页放入一个字符串中,我想列出它的所有脚本标记(及其内容)以进行解析


最好的方法是什么?

最好的方法是使用HTML解析器,如

从网站:

它是一个.NET代码库,允许您解析“web外”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似,但适用于HTML文档(或流)

示例应用程序:

  • 页面固定或生成。您可以按照自己的方式修复页面、修改DOM、添加节点、复制节点,以及。。。你说吧

  • 网络扫描仪。您可以通过大量XPATH查询轻松访问img/src或a/hrefs

  • 网络刮刀。例如,您可以轻松地将任何现有网页废弃到RSS提要中,仅使用XSLT文件作为绑定。本文提供了一个例子


使用XML解析器获取所有脚本标记及其内容。

如果HTML也不是格式良好的XML(想想有效的HTML标记,如

),会破坏XML解析器。