使用HTTP GET进行Python在线新闻评论爬行_Python_Python 2.7_Web_Web Crawler_Urllib

使用HTTP GET进行Python在线新闻评论爬行

python python-2.7 web web-crawler

使用HTTP GET进行Python在线新闻评论爬行,python,python-2.7,web,web-crawler,urllib,Python,Python 2.7,Web,Web Crawler,Urllib,我正在做一个简单的抓取任务，从雅虎新闻（）抓取新闻评论。这是我的代码： import urllib url2 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=20&am

我正在做一个简单的抓取任务，从雅虎新闻（）抓取新闻评论。这是我的代码：

import urllib
url2 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=20&pageNumber=2&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
url1 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=1&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'


url15 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=15&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
u1 = urllib.urlopen(url1)
u2 = urllib.urlopen(url2)

u15 = urllib.urlopen(url15)

data1 = u1.read()
data2 = u2.read()

data15 = u15.read()

# data15 is same with data2!!!

我知道这些评论是通过GET（来自GoogleWebdev.-Network选项卡）给出的，这意味着我可以使用URL来抓取评论。 url1、url2和url5之间只有两个差异（页码和偏移量）

虽然url1代表pageNumber=1，url15代表pageNumber=15，但它是相同的数据！我不知道为什么

这是我的第一个天真的网络爬网任务

先谢谢你

对我来说很好…@alfasin是的。。我编辑了我的帖子。url1和url15点数据相同。。。但我认为补偿会起到一些重要作用。。。。