C# 爬网站点并检测第三方cookie

C# 爬网站点并检测第三方cookie,c#,.net,cookies,selenium,watin,C#,.net,Cookies,Selenium,Watin,我正在编写一个爬虫来记录由一组站点部署的所有cookie。我可以使用selenium获取页面访问时设置的第一方cookie,但软件中的限制意味着它无法获取第三方cookie。是否有其他可用的工具可以选择所有cookie 谢谢。我相信您可以使用RegEx和ie.GetCookie()从网站收集所有cookie。我自己还没有尝试过,但就文档而言,我认为这将非常简单。我相信您可以使用RegEx和ie.GetCookie()从网站收集所有cookie。我自己还没有尝试过,但就文档而言,我认为这将非常简单

我正在编写一个爬虫来记录由一组站点部署的所有cookie。我可以使用selenium获取页面访问时设置的第一方cookie,但软件中的限制意味着它无法获取第三方cookie。是否有其他可用的工具可以选择所有cookie


谢谢。

我相信您可以使用RegEx和ie.GetCookie()从网站收集所有cookie。我自己还没有尝试过,但就文档而言,我认为这将非常简单。

我相信您可以使用RegEx和ie.GetCookie()从网站收集所有cookie。我自己还没有尝试过,但就文档而言,我认为这将非常简单。

如果您将此作为一次性任务来完成,您可以使用Firefox浏览器的FireCookie扩展,它允许您导出所有cookie:

如果您想自动完成这个任务并定期运行,请考虑如下的解决方案:

  • 首先获取需要爬网的页面列表
  • 然后将每个页面连续加载到web浏览器中。仅仅获取页面的HTML是不够的,因为您需要加载和处理所有可能设置cookie的javascript、iFrame等。它可能是一个无头浏览器,如PhantomJS()或其他解决方案,只要它能够像浏览器一样呈现页面
  • 使用诸如Charles proxy()之类的web代理来记录来自浏览器的所有网络请求。可以保存和处理记录的会话以提取所有cookie头。Charles proxy有一个API,可用于将会话导出到XML文件,因此您也可以自动化此部分

  • 如果您将此作为一次性任务执行,则可以使用Firefox浏览器的FireCookie扩展,这样您就可以导出所有cookie:

    如果您想自动完成这个任务并定期运行,请考虑如下的解决方案:

  • 首先获取需要爬网的页面列表
  • 然后将每个页面连续加载到web浏览器中。仅仅获取页面的HTML是不够的,因为您需要加载和处理所有可能设置cookie的javascript、iFrame等。它可能是一个无头浏览器,如PhantomJS()或其他解决方案,只要它能够像浏览器一样呈现页面
  • 使用诸如Charles proxy()之类的web代理来记录来自浏览器的所有网络请求。可以保存和处理记录的会话以提取所有cookie头。Charles proxy有一个API,可用于将会话导出到XML文件,因此您也可以自动化此部分

  • GetCookie仅收回第一方Cookie。看不出正则表达式在此实例中有何帮助。GetCookie只会收回第一方Cookie。无法看到正则表达式在这种情况下有何帮助。