Rss 什么';从任何博客获取数据的通用标准是什么?

Rss 什么';从任何博客获取数据的通用标准是什么?,rss,xml-rpc,atom-feed,Rss,Xml Rpc,Atom Feed,我想从各种各样的博客中提取数据,并通过各种方式来实现: 需要用户身份验证的API XML RPC(不知道哪些都支持它) RSS(同样,不确定哪些博客支持它,即使他们支持,一个人能从RSS提要中获得多少。) 原子 我知道这不是一个严格与编程相关的问题,但我继续问这个问题,因为对于使用什么以及哪个更好 最好不要将API用于身份验证,因为您不仅需要处理各种身份验证实现,还需要处理各种API限制 RSS是最早投入使用的。这是有局限性的。Atom被设计成它的替代品,克服了RSS的局限性。Atom只是XML

我想从各种各样的博客中提取数据,并通过各种方式来实现:

  • 需要用户身份验证的API
  • XML RPC(不知道哪些都支持它)
  • RSS(同样,不确定哪些博客支持它,即使他们支持,一个人能从RSS提要中获得多少。)
  • 原子
  • 我知道这不是一个严格与编程相关的问题,但我继续问这个问题,因为对于使用什么以及哪个更好


    最好不要将API用于身份验证,因为您不仅需要处理各种身份验证实现,还需要处理各种API限制

    RSS是最早投入使用的。这是有局限性的。Atom被设计成它的替代品,克服了RSS的局限性。Atom只是XML RPC的一种特殊形式。换句话说,XML RPC还有其他用途,Atom是您想要的它的变体。以上所有内容都是一种API。所以理想情况下,您想要做的是支持RSS和Atom。遗憾的是,Atom和RSS不向后兼容。引述:

    特别是,许多博客和维基网站在 原子格式

    @目前不推荐使用波内尔的解决方案。但是,在将来,HTML标记将被设置为更改,以改进赋予块的语义含义,例如新的
    标记。这将是解析文档的另一种方式。它将是最通用的,但在我看来,它要变得可靠还需要很长时间,因为如果不是大多数的话,很多网站都会患上“标签汤”综合症。

    最通用的“标准”是抓取和解析HTML

    wget -m http://example.com/
    
    你到底如何做到这一点取决于你想要实现什么,以及你想要成为多大的普遍性


    您可以使用类似可读性使用的启发式方法在站点上查找文章。你可以发现和特例流行的博客平台。

    我通常会抓取大多数网站。但这很痛苦,因为在清理数据时可能会丢失数据。易读性几乎就是我的用例。但它们只爬行了一页。如果要对整个归档文件进行爬网,会发生什么情况?基于API的解决方案不是更好吗?是的,API肯定会有更高的保真度,但没有一个API可以跨所有站点工作。所以你是说,如果我必须从博客获取所有数据,Atom/RSS应该这样做?如果一个博客不支持RSS或者部分支持RSS怎么办。那么,您的代码应该尽其所能来测试博客支持什么。第一次测试原子,因为它是最通用的。否则测试RSS。对于每个字段,您还需要测试不同的字段,以查看它们是否为空。阅读Atom和RSS的官方规范,看看标准实现是什么,这可能会有所帮助。当然要注意,有些博客可能编码不正确。然而,如果你只想要标题、正文和时间戳,希望你不会有太多问题。