C# 如何阅读网站的内容?

C# 如何阅读网站的内容?,c#,httpwebrequest,C#,Httpwebrequest,我想阅读网站的内容,并使用c#和asp.net将其存储在文件中。我知道我们可以通过使用httpwebrequest来阅读它。但是也可以读取所有可用链接数据吗 假设我想阅读,我可以直接给出url,并且可以阅读没有问题的主页数据。但在这里,msn.com页面包含了太多的主页链接,我也想阅读这些页面的内容。可能吗 有人能帮我做这个吗 提前谢谢 定义URL队列 将主页url添加到队列 当队列不是empy时 3.1当前URL=出列() 3.2读取当前url 3.3使用regexp从当前页面中删除所有URL

我想阅读网站的内容,并使用c#和asp.net将其存储在文件中。我知道我们可以通过使用httpwebrequest来阅读它。但是也可以读取所有可用链接数据吗

假设我想阅读,我可以直接给出url,并且可以阅读没有问题的主页数据。但在这里,msn.com页面包含了太多的主页链接,我也想阅读这些页面的内容。可能吗

有人能帮我做这个吗

提前谢谢

  • 定义URL队列

  • 将主页url添加到队列

  • 当队列不是empy时

  • 3.1当前URL=出列()

    3.2读取当前url

    3.3使用regexp从当前页面中删除所有URL

    3.4将所有URL添加到队列


    您必须将队列中的URL限制在某种深度或某个域,否则您将尝试下载整个internet:)

    自己试试,如果您考虑到这个问题,这相当容易。如果你仍然有困难,那么回来,张贴你正在使用的代码,并解释它是如何失败的,我相信你会得到一些帮助。。你能给我一个从当前页面提取URL的简单例子吗?我会选择“美丽的汤”来抓取页面。3.35对于找到的每个URL,如果它是你已经访问过的,请忽略它。否则你会发现自己陷入了一个循环中。哦,我认为BeautifulSoup完全是用python开发的。我想用c#开发同样的工具。谢谢你的建议