Css 使用wget抓取整个tumblr?

Css 使用wget抓取整个tumblr?,css,http,recursion,wget,tumblr,Css,Http,Recursion,Wget,Tumblr,如果这违反了任何规则,我会提前道歉。 我正试图使用wget在本地克隆我的tumblr博客,这很好,但没有一个问题。它完全克隆了页面,但我使用的主题中有一个无限滚动脚本,因此在用户向下滚动到最后一篇文章之前,不会加载其他文章。这是一个问题,因为wget只捕获第一个页面,没有其他内容 目前,我正在使用:wget--random wait-r-p-e robots=off-U mozillahttp://.tumblr.com 我有没有办法单独使用wget来完成这项任务? 感谢您的时间和帮助。wget

如果这违反了任何规则,我会提前道歉。 我正试图使用wget在本地克隆我的tumblr博客,这很好,但没有一个问题。它完全克隆了页面,但我使用的主题中有一个无限滚动脚本,因此在用户向下滚动到最后一篇文章之前,不会加载其他文章。这是一个问题,因为wget只捕获第一个页面,没有其他内容

目前,我正在使用:wget--random wait-r-p-e robots=off-U mozillahttp://.tumblr.com

我有没有办法单独使用wget来完成这项任务?
感谢您的时间和帮助。

wget
不会这样做,因为它不会处理页面中的javascript。你最好的办法是使用。它提供了一种获取和发布博客数据的机制。

您是否尝试过从
/archive
开始

在任何情况下,我发现以下内容对于获得一个没有无限卷轴的主题博客的完整副本非常有用:

wget --user-agent="Mozilla/5.0 XXX" \
--recursive --level=0 --convert-links --backup-converted --page-requisites \
--domains="xkcd.tumblr.com,media.tumblr.com" --exclude-domains="." --span-hosts \
http://xkcd.tumblr.com/

这不是一个与编程相关的问题。几乎是经过深思熟虑的。谢谢你的快速回复,戴夫。看起来这是一项远高于我经验的任务,但不可否认,这并没有超出几个月的Python培训。干杯。使用TumblrAPI的最基本功能非常简单,这是获取博客帖子所需的全部功能。所有这些都需要您注册一个API密钥,然后您可以使用API密钥的“public”部分发出简单的HTTP请求,以便通过博客文章进行分页。真的,没那么难!试试看,也许你会学到一些东西:)