C# 用C语言保存包含所有内容的网页#_C#_.net_Web Scraping_Webpage

C# 用C语言保存包含所有内容的网页#

c# .net web-scraping

C# 用C语言保存包含所有内容的网页#,c#,.net,web-scraping,webpage,C#,.net,Web Scraping,Webpage,我正试图保存一个网页（就像我们在浏览器中所做的那样）及其所有内容和内容格式化。我尝试了WebClient和WebRequest示例，但它们只能下载文本部分，有时还可以下载javascript。但是没有css和图像等。在.Net中是否有此api，或者在.Net中是否有任何第三方api 这是可能的，我认为这是因为很多应用程序都是为离线阅读而运行的，它们以相同的格式和样式显示保存的页面。这是怎么做到的？有什么想法吗编辑1: 可以使用HtmlAlityPack解析和保存网页。但是有没有办法把主

我正试图保存一个网页（就像我们在浏览器中所做的那样）及其所有内容和内容格式化。我尝试了WebClient和WebRequest示例，但它们只能下载文本部分，有时还可以下载javascript。但是没有css和图像等。在.Net中是否有此api，或者在.Net中是否有任何第三方api

这是可能的，我认为这是因为很多应用程序都是为离线阅读而运行的，它们以相同的格式和样式显示保存的页面。这是怎么做到的？有什么想法吗

编辑1: 可以使用HtmlAlityPack解析和保存网页。但是有没有办法把主要文章和其他内容，如广告，其他外部链接分开。有没有办法区分相关内容和非相关内容？（如果这个问题不清楚，我很抱歉）

任何人也可以给出一些建议，这些离线阅读应用程序（如read later/pocket等）如何保存网页并格式化

在C#中有没有同样的方法？

您可以使用

您可以将页面文本下载为Html，然后对其进行解析，获得

或

元素，并分别下载

href

或

src

等属性的链接

是解析Htmls的可靠且有用的库。

您可以尝试将页面保存为

mht

文件。这些文件将网页及其所有引用捆绑到一个压缩文件（.mht）中

注：MHT是由Microsoft引入的。并非所有浏览器都符合此格式。Opera是唯一一款拥有MHT save的流行浏览器。Firefox用户可以调用两个附加组件来处理这个文件标准，Mozilla归档格式&UnMHT。这两个附加组件都可以安装并用于打开和保存完整的网页。

Mabye这可以帮助您你好，Ria，我尝试了HtmlAgilityPack，现在我可以下载图像和其他链接，如css和js文件，但页面看起来仍然不太好。没有格式。我将href和src属性的路径更改为本地目录。但是没有效果。@Deeps:Hello Deeps，您确定为本地文件插入了有效地址：

文件：//

前缀，或者使用

而不是

或者使用

%20

而不是空格，并且……是的，我已经检查了它们。道路很好。我认为css和js的文件是受保护的，因此，它们下载时没有任何文本。有什么办法可以解决吗。我尝试为web请求提供user-agent以下载文件，但没有改变。