Curl 如何模仿archive.org';s";“保存大纲链接”-选择wget或类似产品?

Curl 如何模仿archive.org';s";“保存大纲链接”-选择wget或类似产品?,curl,post,http-headers,wget,Curl,Post,Http Headers,Wget,如果您登录到archive.org,并且有一个选项“保存大纲链接”: 我检查了一个选中此复选框的请求和一个未选中此复选框的请求中的所有http头,没有发现这两个请求之间与此复选框对应的任何差异 我想用wget或类似的和/或Java来模拟这个复选框。我该怎么做? 任何能够解释如何使用web inspector、扩展或类似工具来解决这一问题的人都可以获得一个额外的分数 没有发现任何差异 但这是有区别的。使用复选框和不使用复选框发出请求,右键单击它们,选择将所有内容另存为内容的HAR。区别它。(在

如果您登录到archive.org,并且有一个选项“保存大纲链接”:

我检查了一个选中此复选框的请求和一个未选中此复选框的请求中的所有http头,没有发现这两个请求之间与此复选框对应的任何差异

我想用wget或类似的和/或Java来模拟这个复选框。我该怎么做?

任何能够解释如何使用web inspector、扩展或类似工具来解决这一问题的人都可以获得一个额外的分数

  • 没有发现任何差异

    但这是有区别的。使用复选框和不使用复选框发出请求,右键单击它们,选择
    将所有内容另存为内容的HAR
    。区别它。(在DevTools中也可以看到它-在“Headers”选项卡的底部)

    使用
    capture\u outlinks=on

    "postData": {
      "mimeType": "application/x-www-form-urlencoded",
      "text": "url=https%3A%2F%2Fstackoverflow.com%2F&capture_outlinks=on",
      "params": [
        {
          "name": "url",
          "value": "https%3A%2F%2Fstackoverflow.com%2F"
        },
        {
          "name": "capture_outlinks",
          "value": "on"
        }
      ]
    }
    
    没有:

    "postData": {
      "mimeType": "application/x-www-form-urlencoded",
      "text": "url=https%3A%2F%2Fstackoverflow.com%2F",
      "params": [
        {
          "name": "url",
          "value": "https%3A%2F%2Fstackoverflow.com%2F"
        }
      ]
    }
    
  • 此外,您还将发现类似于
    https://web.archive.org/save/status/{job\u id}?\u t={timestamp}
    。作为响应,您将发现
    application/json
    中包含带有
    outlinks
    数组的json,实际上,
    outlinks
    数组在两个HAR中都存在。但是当
    capture\u outlinks=on
    时,也有
    资源
    数组

  • 上述请求是从加载的脚本启动的。您可以通过在HARs或“启动器”选项卡中的DevTools中搜索
    save/status
    来找到这一点

  • job\u id
    是一个事实,您可以通过在同一个JSON中搜索它的值来确认它,也可以在对
    watchJob()调用的初始
    POST
    的响应中找到它

  • 也许我错过了什么,但在我看来,你需要

    • 使用url=https%3A%2F%2Fstackoverflow.com%2F&capture\u outlinks=on
    • 以某种方式从响应中获取
      job\u id
      (可能是regexp)
    • 然后,使用找到的
      job\u id
      https://web.archive.org/save/status/{job\u id}?\u t={timestamp}
      (当然,您需要cookie,并且可能需要生成正确的时间戳)

    谢谢。您所指的
    HAR
    首字母缩写是什么?你用的是Chrome还是Firefox(或其他什么)?@d-b,我用的是Chrome,但你也可以在FF中保存HARs。HAR的代表是什么我不知道:)嗯,我很烂……你能为wget/curl(或任何类似工具)创建一个非常基本的示例脚本,并举例说明如何使用它吗?如果你愿意的话,可以增加奖励。当你在archive.org上登录时,从Chrome的控制台运行一个JS代码段可以吗?不确定我现在是否有时间做更复杂的事情。但是你被卡住了吗?也许我能指引你。当我们谈论脚本时,我们是在谈论
    bash
    还是其他什么?bash或类似的东西将是理想的选择。将其包含在cron作业或类似作业中。非常感谢:-)