Python feedparser和Google新闻_Python_Rss_Feedparser_Google News

Python feedparser和Google新闻

python rss

Python feedparser和Google新闻,python,rss,feedparser,google-news,Python,Rss,Feedparser,Google News,我正在尝试使用带有python的通用feedparser从Google新闻下载一个新闻语料库（尝试进行一些自然语言处理）。我真的对XML一无所知，我只是用一个例子来说明如何使用feedparser。问题是，我从RSS订阅源获取的口述中找不到新闻内容，只找到标题我当前尝试使用的代码如下： import feedparser url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=

我正在尝试使用带有python的通用feedparser从Google新闻下载一个新闻语料库（尝试进行一些自然语言处理）。我真的对XML一无所知，我只是用一个例子来说明如何使用feedparser。问题是，我从RSS订阅源获取的口述中找不到新闻内容，只找到标题

我当前尝试使用的代码如下：

import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss' 
# just some GNews feed - I'll use a specific search later

feed = feedparser.parse(url)
for post in feed.entries:
   print post.title
   print post.keys()

我在这篇文章中得到的关键是标题、摘要、日期等等。。。没有内容

这是谷歌新闻的问题还是我做错了什么？有办法吗？

首先，您需要退房。这是一个例子。这应该让你开始

你检查过谷歌新闻的提要了吗

每个提要中都有一个根元素，其中包含一组信息和实际条目。下面是查看可用内容的一种肮脏方式：

import feedparser
d = feedparser.parse('http://news.google.com/news?pz=1&cf=all&ned=ca&hl=en&topic=w&output=rss')

print [field for field in d]

我们可以看到一个

条目

字段，它很可能包含。。新闻条目！如果你：

import pprint
pprint.pprint(entry for entry in d['entries'])

我们得到了一些更多的信息：）它将以漂亮的打印方式显示与每个条目相关的所有字段（这就是pprint的用途）

因此，要从该提要获取我们新闻条目的所有标题：

titles = [entry.title for entry in d['entries']

所以，好好玩玩吧。希望这是一个有用的开始

据我所知，谷歌新闻没有存储实际内容，只是对内容的总结。您需要从其链接到的网站中删除内容：（我刚刚意识到这几乎适用于世界上所有相关的新闻来源。RSS提要从不包含新闻全文，只包含摘要。我想我必须学习如何使用BeautifulSoup。我刚刚意识到如何使用BeautifulSoup解析一些页面。谢谢你的回答。嗯……我玩了一下这个。显然这是s的rss只提供新闻摘要，不提供新闻全文(