Python RSS屏幕刮板

Python RSS屏幕刮板,python,rss,Python,Rss,有谁能告诉我一个现成的RSS屏幕刮板,最好是用Python,以便获得全文RSS提要吗?有一个很好的列表,其中提到,您可以这样使用: import feedparser python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \ "RecentChanges?action=rss_rc" feed = feedparser.parse( python_wiki_rss_url )

有谁能告诉我一个现成的RSS屏幕刮板,最好是用Python,以便获得全文RSS提要吗?

有一个很好的列表,其中提到,您可以这样使用:

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                      "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )
然后,您可以执行以下操作:

for item in feed["items"]:
    print item["title"]

很好

抱歉,python中不存在它,尽管php中也存在。欢迎您使用和改进我制作的名为scraped的。虽然它并不是所有的网站,但它是一个基于配方的系统,目前只处理《纽约时报》、《华尔街日报》和《经济学人》。我正在研究一个包罗万象的算法,但这是一项重大任务。它包括对不同类型的html和xml的大量分析。即使是上面提到的3个站点,在如何清理它们的站点方面也有着截然不同的算法,《华尔街日报》是迄今为止最复杂的。他们用这么多无用的废话把HTML搞砸了,主要是为了阻止你

这是我所说的程序,它需要lxml,但它解释了自述文件中的所有内容。它读取配置文件,解析部分rss提要,获取链接,然后删除这些链接,最后生成一个RSS2.0XML文件。我主要把它转换成kindle的电子书。我使用lxml、BeautifulSoup和feedparser


你也可以看看calibre项目,它在菜谱上使用了与我类似的方法

如果您只想通过HTTP获取RSS提要,只需使用
urllib2
。你也想解析它们吗?如果是这样,原因是什么?+1-先生,对你来说,你比我先到了一点(我的修订历史没有显示我发布第一个链接,阅读它,看到那里引入的提要解析器,并将其合并到我的帖子中)。他要求的是python中的部分到完整提要转换器,而不是解析器。也许你是对的,但这将是一个HTML抓取而不是RSS,它完全依赖于站点,甚至可能破坏站点的策略,所以让我们使用可用的RSS提要:-)他要求的是python中的部分到完整提要转换器,而不是解析器。