C# 构建爬虫以获取页面内容
我正在写一个爬虫来获取网站的内容,但我有以下疑问:C# 构建爬虫以获取页面内容,c#,html,http,httpwebrequest,C#,Html,Http,Httpwebrequest,我正在写一个爬虫来获取网站的内容,但我有以下疑问: 一个由Fiddler调试的URL,我需要在这个URL中使用get参数设置一些值(设置/获取sessionID,输入日期…) 然后我有另一个POST URL,它使用上面URL中包含的cookie来生成上面给定日期的页面内容 在C#中,我所做的是,首先运行第一个URL来解析ID,然后设置ID以获取会话ID(PHPSESSID),第三步使用日期给出参数,第四步运行最终URL以获取内容,但在最后一步,它警告我日期输入格式可能不正确,我尝试了许多日期格式
为了获取页面内容,这些URL之间是否存在任何关系,就像我单独使用它们一样?我对每个HTTPWebRequest使用相同的PHPSESSID一个简单的爬虫程序不会使用httppost进行信息检索。您只想处理GET请求,原因有很多:它是安全的,用于检索数据,它是幂等的,它不修改服务器状态…@oleksii是的,当我使用Fiddler调试页面时,我可以看到在接收页面内容之前执行了许多请求,我想用C#模拟它们,就像那些步骤一样,但我似乎仍然不知道每个请求之间是如何相互关联的。我需要使用一些强制性信息,我必须使用HTTP POST和给定的值,get和POST