Rss 什么'；从任何博客获取数据的通用标准是什么？_Rss_Xml Rpc_Atom Feed

Rss 什么'；从任何博客获取数据的通用标准是什么？

rss

Rss 什么'；从任何博客获取数据的通用标准是什么？,rss,xml-rpc,atom-feed,Rss,Xml Rpc,Atom Feed,我想从各种各样的博客中提取数据，并通过各种方式来实现：需要用户身份验证的API XML RPC（不知道哪些都支持它） RSS（同样，不确定哪些博客支持它，即使他们支持，一个人能从RSS提要中获得多少。）原子我知道这不是一个严格与编程相关的问题，但我继续问这个问题，因为对于使用什么以及哪个更好最好不要将API用于身份验证，因为您不仅需要处理各种身份验证实现，还需要处理各种API限制 RSS是最早投入使用的。这是有局限性的。Atom被设计成它的替代品，克服了RSS的局限性。Atom只是XML

我想从各种各样的博客中提取数据，并通过各种方式来实现：

需要用户身份验证的API

XML RPC（不知道哪些都支持它）

RSS（同样，不确定哪些博客支持它，即使他们支持，一个人能从RSS提要中获得多少。）

原子

我知道这不是一个严格与编程相关的问题，但我继续问这个问题，因为对于使用什么以及哪个更好

最好不要将API用于身份验证，因为您不仅需要处理各种身份验证实现，还需要处理各种API限制

RSS是最早投入使用的。这是有局限性的。Atom被设计成它的替代品，克服了RSS的局限性。Atom只是XML RPC的一种特殊形式。换句话说，XML RPC还有其他用途，Atom是您想要的它的变体。以上所有内容都是一种API。所以理想情况下，您想要做的是支持RSS和Atom。遗憾的是，Atom和RSS不向后兼容。引述:

特别是，许多博客和维基网站在原子格式

@目前不推荐使用波内尔的解决方案。但是，在将来，HTML标记将被设置为更改，以改进赋予块的语义含义，例如新的

标记。这将是解析文档的另一种方式。它将是最通用的，但在我看来，它要变得可靠还需要很长时间，因为如果不是大多数的话，很多网站都会患上“标签汤”综合症。

最通用的“标准”是抓取和解析HTML

wget -m http://example.com/

你到底如何做到这一点取决于你想要实现什么，以及你想要成为多大的普遍性

您可以使用类似可读性使用的启发式方法在站点上查找文章。你可以发现和特例流行的博客平台。

我通常会抓取大多数网站。但这很痛苦，因为在清理数据时可能会丢失数据。易读性几乎就是我的用例。但它们只爬行了一页。如果要对整个归档文件进行爬网，会发生什么情况？基于API的解决方案不是更好吗？是的，API肯定会有更高的保真度，但没有一个API可以跨所有站点工作。所以你是说，如果我必须从博客获取所有数据，Atom/RSS应该这样做？如果一个博客不支持RSS或者部分支持RSS怎么办。那么，您的代码应该尽其所能来测试博客支持什么。第一次测试原子，因为它是最通用的。否则测试RSS。对于每个字段，您还需要测试不同的字段，以查看它们是否为空。阅读Atom和RSS的官方规范，看看标准实现是什么，这可能会有所帮助。当然要注意，有些博客可能编码不正确。然而，如果你只想要标题、正文和时间戳，希望你不会有太多问题。