从中提取RSS源url_Rss_Web Crawler_Feed_Atom Feed_Scraper

从中提取RSS源url

rss web-crawler

从中提取RSS源url,rss,web-crawler,feed,atom-feed,scraper,Rss,Web Crawler,Feed,Atom Feed,Scraper,我有100个网站在不同的地方公开了RSS提要。这些位置有几个指向不同提要的RSS提要链接。它与BBC的Rss提要页面几乎相同网站1:domain1.com/rss 网站2:domain2.com/environments/rss 是否有任何方法可以提取每个提要xml的rss链接类似的事情但我只想给网站。这样我就可以得到一个特定站点的所有可能的rss提要我想有100个网站的所有rss源的列表。这样我就可以在仪表板上监视它们了。哦，feeds aee混合了bith atom和rss 我所做

我有100个网站在不同的地方公开了RSS提要。这些位置有几个指向不同提要的RSS提要链接。它与BBC的Rss提要页面几乎相同

网站1:domain1.com/rss 网站2:domain2.com/environments/rss

是否有任何方法可以提取每个提要xml的rss链接

类似的事情但我只想给网站。这样我就可以得到一个特定站点的所有可能的rss提要

我想有100个网站的所有rss源的列表。这样我就可以在仪表板上监视它们了。哦，feeds aee混合了bith atom和rss

我所做的一切。我已经研究了ApacheNutch和ParseFeed插件。Scrapy是下一个选择，但我仍然不确定这是我想要的。

一般来说，一个提供RSS提要的网站至少在主页的标题中指出了这一点，有些甚至在每一页中都有

有一个RSS提要示例：

<link href="http://snapwebsites.org/rss.xml"
      title="Snap! A C++ Open Source CMS RSS"
      type="application/rss+xml"
      rel="alternate">

请注意，不同网站的类型略有不同。例如，一些网站可能使用

文本

而不是

应用程序

（这是错误的，但XML是文本…）还有

应用程序/atom+XML

。您也可以同时使用这两种格式

如果这不可用，那么您必须检查主页或其他页面以查找指向RSS提要的锚定链接，这意味着：

解析HTML
寻找锚
阅读
```
href
```
属性
检查目标是否返回XML文件

如果您得到一个xml文件（从

开始，我希望这些家伙已经成功地将提要链接放进了正确的类型中。这样它们就很容易被找到。正如我想象的那样，如果没有，爬行将花费更长的时间。是的。好吧……一旦得到了链接，你就很好了。另一方面，如果你在一个网站上有许多提要，那么它们不可能都出现。）标题link
标签中的ar。这取决于您是否想要获取所有提要。当然，您的权利不会在标题中显示所有链接。我们只需抓取所有页面并解析内容，以检查其是否具有我们正在寻找的内容类型。