从中提取RSS源url

从中提取RSS源url,rss,web-crawler,feed,atom-feed,scraper,Rss,Web Crawler,Feed,Atom Feed,Scraper,我有100个网站在不同的地方公开了RSS提要。这些位置有几个指向不同提要的RSS提要链接。它与BBC的Rss提要页面几乎相同 网站1:domain1.com/rss 网站2:domain2.com/environments/rss 是否有任何方法可以提取每个提要xml的rss链接 类似的事情 但我只想给网站。这样我就可以得到一个特定站点的所有可能的rss提要 我想有100个网站的所有rss源的列表。这样我就可以在仪表板上监视它们了。哦,feeds aee混合了bith atom和rss 我所做

我有100个网站在不同的地方公开了RSS提要。这些位置有几个指向不同提要的RSS提要链接。它与BBC的Rss提要页面几乎相同

网站1:domain1.com/rss 网站2:domain2.com/environments/rss

是否有任何方法可以提取每个提要xml的rss链接

类似的事情 但我只想给网站。这样我就可以得到一个特定站点的所有可能的rss提要

我想有100个网站的所有rss源的列表。这样我就可以在仪表板上监视它们了。哦,feeds aee混合了bith atom和rss


我所做的一切。我已经研究了ApacheNutch和ParseFeed插件。Scrapy是下一个选择,但我仍然不确定这是我想要的。

一般来说,一个提供RSS提要的网站至少在主页的标题中指出了这一点,有些甚至在每一页中都有

有一个RSS提要示例:

<link href="http://snapwebsites.org/rss.xml"
      title="Snap! A C++ Open Source CMS RSS"
      type="application/rss+xml"
      rel="alternate">

请注意,不同网站的类型略有不同。例如,一些网站可能使用
文本
而不是
应用程序
(这是错误的,但XML是文本…)还有
应用程序/atom+XML
。您也可以同时使用这两种格式

如果这不可用,那么您必须检查主页或其他页面以查找指向RSS提要的锚定链接,这意味着:

  • 解析HTML
  • 寻找锚
  • 阅读
    href
    属性
  • 检查目标是否返回XML文件

  • 如果您得到一个xml文件(从
    开始,我希望这些家伙已经成功地将提要链接放进了正确的类型中。这样它们就很容易被找到。正如我想象的那样,如果没有,爬行将花费更长的时间。是的。好吧……一旦得到了链接,你就很好了。另一方面,如果你在一个网站上有许多提要,那么它们不可能都出现。)标题
    link
    标签中的ar。这取决于您是否想要获取所有提要。当然,您的权利不会在标题中显示所有链接。我们只需抓取所有页面并解析内容,以检查其是否具有我们正在寻找的内容类型。