使用HTTP GET进行Python在线新闻评论爬行

使用HTTP GET进行Python在线新闻评论爬行,python,python-2.7,web,web-crawler,urllib,Python,Python 2.7,Web,Web Crawler,Urllib,我正在做一个简单的抓取任务,从雅虎新闻()抓取新闻评论。 这是我的代码: import urllib url2 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=20&am

我正在做一个简单的抓取任务,从雅虎新闻()抓取新闻评论。 这是我的代码:

import urllib
url2 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=20&pageNumber=2&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
url1 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=1&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'


url15 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=15&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
u1 = urllib.urlopen(url1)
u2 = urllib.urlopen(url2)

u15 = urllib.urlopen(url15)

data1 = u1.read()
data2 = u2.read()

data15 = u15.read()

# data15 is same with data2!!!
我知道这些评论是通过GET(来自GoogleWebdev.-Network选项卡)给出的,这意味着我可以使用URL来抓取评论。 url1、url2和url5之间只有两个差异(页码和偏移量)

虽然url1代表pageNumber=1,url15代表pageNumber=15,但它是相同的数据! 我不知道为什么

这是我的第一个天真的网络爬网任务


先谢谢你

对我来说很好…@alfasin是的。。我编辑了我的帖子。url1和url15点数据相同。。。但我认为补偿会起到一些重要作用。。。。