C# WebCrawling动态链接

C# WebCrawling动态链接,c#,web-crawler,C#,Web Crawler,有人知道如何抓取具有动态页面/查询的网站吗?我的意思是,如果我单击某个链接,每次我尝试在web浏览器中重新加载它时,它都有不同的值。现在我的webcrawler无法下载这些页面的内容。请提供建议。您可能希望查看问题,了解如何编写爬虫程序的详细信息,或者查看包含良好爬虫程序的源代码(请参阅)。即使它是动态的或非动态的,也应该是相同的方式。事实上,爬虫只是由三件事组成的 网址 它发送到服务器的数据(如果是POST方法),然后 如果需要身份验证,则返回cookie 仅此而已 执行爬虫程序时的常见问题:

有人知道如何抓取具有动态页面/查询的网站吗?我的意思是,如果我单击某个链接,每次我尝试在web浏览器中重新加载它时,它都有不同的值。现在我的webcrawler无法下载这些页面的内容。请提供建议。

您可能希望查看问题,了解如何编写爬虫程序的详细信息,或者查看包含良好爬虫程序的源代码(请参阅)。

即使它是动态的或非动态的,也应该是相同的方式。事实上,爬虫只是由三件事组成的

  • 网址
  • 它发送到服务器的数据(如果是POST方法),然后
  • 如果需要身份验证,则返回cookie
  • 仅此而已

    执行爬虫程序时的常见问题:

  • 未猜到默认页面[index.html、index.php、default.aspx等]。。实际上,如果没有它,它将对所有方法都有效[POST/GET]
  • 每个字段名中都有一个未准确写入
  • ASP.Net表单viewstate id字段(我忘记了名称),但我可以轻松实现
  • 由javascript生成的动态页面。这是最难的部分,大多数情况下,即使是谷歌在这方面仍然存在问题

  • 希望您能提供帮助。

    嗨,凯恩,谢谢您的回复,Searcharoo很有趣。不过,如果有人能指出如何做到这一点(如何从动态链接下载页面),那将大有帮助。看看Searcharoo的代码,我可能需要一些时间来理解它们的架构。