C# 用C语言保存包含所有内容的网页#

C# 用C语言保存包含所有内容的网页#,c#,.net,web-scraping,webpage,C#,.net,Web Scraping,Webpage,我正试图保存一个网页(就像我们在浏览器中所做的那样)及其所有内容和内容 格式化。我尝试了WebClient和WebRequest示例,但它们只能下载文本部分,有时还可以下载javascript。但是没有css和图像等。 在.Net中是否有此api,或者在.Net中是否有任何第三方api 这是可能的,我认为这是因为很多应用程序都是为离线阅读而运行的,它们以相同的格式和样式显示保存的页面。 这是怎么做到的? 有什么想法吗 编辑1: 可以使用HtmlAlityPack解析和保存网页。但是有没有办法把主

我正试图保存一个网页(就像我们在浏览器中所做的那样)及其所有内容和内容 格式化。我尝试了WebClient和WebRequest示例,但它们只能下载文本部分,有时还可以下载javascript。但是没有css和图像等。 在.Net中是否有此api,或者在.Net中是否有任何第三方api

这是可能的,我认为这是因为很多应用程序都是为离线阅读而运行的,它们以相同的格式和样式显示保存的页面。 这是怎么做到的? 有什么想法吗

编辑1: 可以使用HtmlAlityPack解析和保存网页。但是有没有办法把主要文章和其他内容,如广告,其他外部链接分开。有没有办法区分相关内容和非相关内容? (如果这个问题不清楚,我很抱歉)

任何人也可以给出一些建议,这些离线阅读应用程序(如read later/pocket等)如何保存网页并格式化

在C#中有没有同样的方法?

您可以使用


您可以将页面文本下载为Html,然后对其进行解析,获得
元素,并分别下载
href
src
等属性的链接


是解析Htmls的可靠且有用的库。

您可以尝试将页面保存为
mht
文件。 这些文件将网页及其所有引用捆绑到一个压缩文件(.mht)中


注:MHT是由Microsoft引入的。并非所有浏览器都符合此格式。Opera是唯一一款拥有MHT save的流行浏览器。Firefox用户可以调用两个附加组件来处理这个文件标准,Mozilla归档格式&UnMHT。这两个附加组件都可以安装并用于打开和保存完整的网页。

Mabye这可以帮助您你好,Ria,我尝试了HtmlAgilityPack,现在我可以下载图像和其他链接,如css和js文件,但页面看起来仍然不太好。没有格式。我将href和src属性的路径更改为本地目录。但是没有效果。@Deeps:Hello Deeps,您确定为本地文件插入了有效地址:
文件://
前缀,或者使用
/
而不是
\
或者使用
%20
而不是空格,并且……是的,我已经检查了它们。道路很好。我认为css和js的文件是受保护的,因此,它们下载时没有任何文本。有什么办法可以解决吗。我尝试为web请求提供user-agent以下载文件,但没有改变。