Curl 如何模仿archive.org';s";“保存大纲链接”-选择wget或类似产品?
如果您登录到archive.org,并且有一个选项“保存大纲链接”: 我检查了一个选中此复选框的请求和一个未选中此复选框的请求中的所有http头,没有发现这两个请求之间与此复选框对应的任何差异 我想用wget或类似的和/或Java来模拟这个复选框。我该怎么做? 任何能够解释如何使用web inspector、扩展或类似工具来解决这一问题的人都可以获得一个额外的分数Curl 如何模仿archive.org';s";“保存大纲链接”-选择wget或类似产品?,curl,post,http-headers,wget,Curl,Post,Http Headers,Wget,如果您登录到archive.org,并且有一个选项“保存大纲链接”: 我检查了一个选中此复选框的请求和一个未选中此复选框的请求中的所有http头,没有发现这两个请求之间与此复选框对应的任何差异 我想用wget或类似的和/或Java来模拟这个复选框。我该怎么做? 任何能够解释如何使用web inspector、扩展或类似工具来解决这一问题的人都可以获得一个额外的分数 没有发现任何差异 但这是有区别的。使用复选框和不使用复选框发出请求,右键单击它们,选择将所有内容另存为内容的HAR。区别它。(在
将所有内容另存为内容的HAR
。区别它。(在DevTools中也可以看到它-在“Headers”选项卡的底部)
使用capture\u outlinks=on
:
"postData": {
"mimeType": "application/x-www-form-urlencoded",
"text": "url=https%3A%2F%2Fstackoverflow.com%2F&capture_outlinks=on",
"params": [
{
"name": "url",
"value": "https%3A%2F%2Fstackoverflow.com%2F"
},
{
"name": "capture_outlinks",
"value": "on"
}
]
}
没有:
"postData": {
"mimeType": "application/x-www-form-urlencoded",
"text": "url=https%3A%2F%2Fstackoverflow.com%2F",
"params": [
{
"name": "url",
"value": "https%3A%2F%2Fstackoverflow.com%2F"
}
]
}
https://web.archive.org/save/status/{job\u id}?\u t={timestamp}
。作为响应,您将发现application/json
中包含带有outlinks
数组的json,实际上,outlinks
数组在两个HAR中都存在。但是当capture\u outlinks=on
时,也有资源
数组
save/status
来找到这一点
job\u id
是一个事实,您可以通过在同一个JSON中搜索它的值来确认它,也可以在对watchJob()调用的初始POST
的响应中找到它
- 使用url=https%3A%2F%2Fstackoverflow.com%2F&capture\u outlinks=on
- 以某种方式从响应中获取
(可能是regexp)job\u id
- 然后,使用找到的
向job\u id
(当然,您需要cookie,并且可能需要生成正确的时间戳)https://web.archive.org/save/status/{job\u id}?\u t={timestamp}
HAR
首字母缩写是什么?你用的是Chrome还是Firefox(或其他什么)?@d-b,我用的是Chrome,但你也可以在FF中保存HARs。HAR的代表是什么我不知道:)嗯,我很烂……你能为wget/curl(或任何类似工具)创建一个非常基本的示例脚本,并举例说明如何使用它吗?如果你愿意的话,可以增加奖励。当你在archive.org上登录时,从Chrome的控制台运行一个JS代码段可以吗?不确定我现在是否有时间做更复杂的事情。但是你被卡住了吗?也许我能指引你。当我们谈论脚本时,我们是在谈论bash
还是其他什么?bash或类似的东西将是理想的选择。将其包含在cron作业或类似作业中。非常感谢:-)