Python 抓取谷歌新闻标题

Python 抓取谷歌新闻标题,python,web-scraping,google-news,Python,Web Scraping,Google News,谷歌新闻可以通过关键词进行搜索,然后搜索范围可以缩小到特定的时间段 我尝试在网站上进行搜索,然后使用结果页面的url在python中对搜索进行反向工程,因此: import urllib2 url = 'https://www.google.com/search?hl=en&gl=uk&tbm=nws&authuser=0&q=apple&oq=apple&gs_l=news-cc.3..43j0l9j43i53.5710.6848.0.705

谷歌新闻可以通过关键词进行搜索,然后搜索范围可以缩小到特定的时间段

我尝试在网站上进行搜索,然后使用结果页面的url在python中对搜索进行反向工程,因此:

import urllib2


url = 'https://www.google.com/search?hl=en&gl=uk&tbm=nws&authuser=0&q=apple&oq=apple&gs_l=news-cc.3..43j0l9j43i53.5710.6848.0.7058.5.4.0.1.1.0.66.230.4.4.0...0.0...1ac.1.SRcIeXL5d48'

handler = urllib2.urlopen(url)
html = handler.read()
但是,我得到一个403错误。这种方法适用于其他网站,如bbc.co.uk。所以很明显谷歌不想让我用python来刮网站

所以我有两个问题: 1) 有没有可能绕过谷歌设置的这一限制?如果是,怎么做? 2) 有没有其他可刮取的新闻网站,我可以搜索新闻的关键字在给定的时期

无论哪种选择,我都不介意使用付费服务。因此,这样的建议也是受欢迎的

提前感谢,,
K.

尝试设置
用户代理

req = urllib2.Request(path)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.3 Gecko/2008092417 Firefox/3.0.3')
response = urllib2.urlopen(req)

您还可以使用selenium浏览google新闻,并使用urllib从各个链接获取信息。Selenium和phantom JS或Selenium和chromedriver可以很好地使用pythonAnswer浏览google新闻,并通过设置新闻日期范围的代码示例以及使用代理来回答关于第三方google新闻API的类似问题。