从博客(wordpress或blogger)获取所有帖子

从博客(wordpress或blogger)获取所有帖子,wordpress,blogger,blogspot,Wordpress,Blogger,Blogspot,这是假设无法直接访问api。因为我要求所有的帖子,我不确定RSS会有多大帮助 我考虑了一个简单的系统,它可以在每年和每个月循环,下载每个html文件,但为每个年月对更改以下URL。这适用于wordpress和blogger博客 http://www.lostincheeseland.com/2011/05 但是,有没有办法使用blogger提供的以下搜索功能返回所有博客?我已经尝试过了,但是文档似乎很少 http://www.lostincheeseland.com/search?up

这是假设无法直接访问api。因为我要求所有的帖子,我不确定RSS会有多大帮助

我考虑了一个简单的系统,它可以在每年和每个月循环,下载每个html文件,但为每个年月对更改以下URL。这适用于wordpress和blogger博客

http://www.lostincheeseland.com/2011/05    
但是,有没有办法使用blogger提供的以下搜索功能返回所有博客?我已经尝试过了,但是文档似乎很少

http://www.lostincheeseland.com/search?updated-max=2012-08-17T09:44:00%2B02:00&max-results=6

还有其他我没有考虑过的方法吗?

您正在寻找的是一种新方法

首先,你正在写一个机器人,所以检查博客文件是很有礼貌的。瞧,你经常会发现这里提到的网站地图。以下是来自以下方面的示例:

在这种情况下,您可以访问站点地图URL以获取xml站点地图

对于Wordpress,同样适用,但它不是内置的标准,所以不是所有的博客都会有它。看看在Wordpress中创建这些站点地图最流行的方法是什么。例如,我的博客使用这个,你可以在 (标准位置)

简言之:

  • 检查robots.txt
  • 如果存在,请遵循站点地图url
  • 否则,请检查/sitemap.xml

还有:!如果您要编写一个bot,请确保它遵守robots.txt文件(比如blogspot明确告诉您使用
/search
!)删除了ruby-on-rails标记,因为这个问题不是特定于rails的。除此之外,还值得检查
/sitemap\u index.xml
,有时自动重定向不起作用,不知道为什么,例如kitchenstewardship.com
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://googleblog.blogspot.com/feeds/posts/default?orderby=UPDATED