Javascript PHP RSS提要爬虫程序

Javascript PHP RSS提要爬虫程序,javascript,php,ajax,xml,rss,Javascript,Php,Ajax,Xml,Rss,我想为我的网站建立一个RSS提要爬虫。虽然我不太确定,但是如何开始呢。我的爬虫如何识别RSS提要?有什么东西我可以爬,每个RSS阅读器都有? 我不需要任何代码,只需要一些帮助我的大脑理解我必须创建什么 谢谢你的光临 问候 Xatenev我认为如果您的爬虫程序扫描所有链接并至少打开每个页面一次以查找文本,这是可能的。据我所知,每个RSS提要都应该包含这一行 <?xml version="1.0" encoding="UTF-8" ?> <rss version="2.0">

我想为我的网站建立一个RSS提要爬虫。虽然我不太确定,但是如何开始呢。我的爬虫如何识别RSS提要?有什么东西我可以爬,每个RSS阅读器都有? 我不需要任何代码,只需要一些帮助我的大脑理解我必须创建什么

谢谢你的光临

问候


Xatenev

我认为如果您的爬虫程序扫描所有链接并至少打开每个页面一次以查找文本,这是可能的。据我所知,每个RSS提要都应该包含这一行

<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
<channel>
 <title>RSS Title</title>
 <description>This is an example of an RSS feed</description>
 <link>http://www.someexamplerssdomain.com/main.html</link>
 <lastBuildDate>Mon, 06 Sep 2010 00:01:00 +0000 </lastBuildDate>
 <pubDate>Mon, 06 Sep 2009 16:20:00 +0000 </pubDate>
 <ttl>1800</ttl>

 <item>
  <title>Example entry</title>
  <description>Here is some text containing an interesting description.</description>
  <link>http://www.wikipedia.org/</link>
  <guid>unique string per item</guid>
  <pubDate>Mon, 06 Sep 2009 16:20:00 +0000 </pubDate>
 </item>

</channel>
</rss>

RSS标题
这是RSS提要的一个示例
http://www.someexamplerssdomain.com/main.html
2010年9月6日星期一00:01:00+0000
2009年9月6日星期一16:20:00+0000
1800
示例条目
下面是一些包含有趣描述的文本。
http://www.wikipedia.org/
每个项目的唯一字符串
2009年9月6日星期一16:20:00+0000
如果您打算使用PHP,我对使用PHP构建的SimpleXML有非常积极的体验


p.S.Xatenev不客气;)

我如何才能真正抓取这些RSS提要?我的爬虫程序如何识别这些,并将我需要的数据返回给我?我不知道你是否对正则表达式有很多经验,我认为这是正确的做法。我知道正则表达式,但我指的是一个爬虫程序,例如,只在一个网站上访问所有链接,然后继续在另一个网站上爬虫。如何获取网站上的所有RSS源?这些链接很容易从源代码中找到,我能从源代码中找到RSS提要吗?你能再澄清一下吗?我认为如果你的爬虫程序扫描所有链接并打开每个页面至少一次以查找文本“”,这是可能的。据我所知,每个RSS提要都应该包含这一行。啊,这就是我想知道的,非常酷,谢谢!谢谢你的解释:)。如果你不想重新发明轮子,请检查:)嘿,看起来很酷,但是我能用它做什么呢?:它看起来像是一个巨大的提要数据库,我(可能)从中获得了很多RSS提要。对吗^^