Python RSS屏幕刮板_Python_Rss - Fatal编程技术网

Python RSS屏幕刮板

python rss

Python RSS屏幕刮板,python,rss,Python,Rss,有谁能告诉我一个现成的RSS屏幕刮板，最好是用Python，以便获得全文RSS提要吗？有一个很好的列表，其中提到，您可以这样使用： import feedparser python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \ "RecentChanges?action=rss_rc" feed = feedparser.parse( python_wiki_rss_url )

有谁能告诉我一个现成的RSS屏幕刮板，最好是用Python，以便获得全文RSS提要吗？

有一个很好的列表，其中提到，您可以这样使用：

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                      "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

然后，您可以执行以下操作：

for item in feed["items"]:
    print item["title"]

很好

抱歉，python中不存在它，尽管php中也存在。欢迎您使用和改进我制作的名为scraped的。虽然它并不是所有的网站，但它是一个基于配方的系统，目前只处理《纽约时报》、《华尔街日报》和《经济学人》。我正在研究一个包罗万象的算法，但这是一项重大任务。它包括对不同类型的html和xml的大量分析。即使是上面提到的3个站点，在如何清理它们的站点方面也有着截然不同的算法，《华尔街日报》是迄今为止最复杂的。他们用这么多无用的废话把HTML搞砸了，主要是为了阻止你

这是我所说的程序，它需要lxml，但它解释了自述文件中的所有内容。它读取配置文件，解析部分rss提要，获取链接，然后删除这些链接，最后生成一个RSS2.0XML文件。我主要把它转换成kindle的电子书。我使用lxml、BeautifulSoup和feedparser

你也可以看看calibre项目，它在菜谱上使用了与我类似的方法

如果您只想通过HTTP获取RSS提要，只需使用

urllib2

。你也想解析它们吗？如果是这样，原因是什么？+1-先生，对你来说，你比我先到了一点（我的修订历史没有显示我发布第一个链接，阅读它，看到那里引入的提要解析器，并将其合并到我的帖子中）。他要求的是python中的部分到完整提要转换器，而不是解析器。也许你是对的，但这将是一个HTML抓取而不是RSS，它完全依赖于站点，甚至可能破坏站点的策略，所以让我们使用可用的RSS提要：-）他要求的是python中的部分到完整提要转换器，而不是解析器。