Python 爬行(200)但没有';不要被刮伤-克劳拉

Python 爬行(200)但没有';不要被刮伤-克劳拉,python,mongodb,scrapy,web-crawler,Python,Mongodb,Scrapy,Web Crawler,大家好,我又一次参加了C10计划,并试图抢夺亚马逊网站 我有这个问题,有时日志说一个网站是爬网的,但它不会抓取我想要的数据,它会按照我的指示跳转到下一页。从某些页面上看,它会从一些页面上刮下来,但它不会,我不明白。就像我检查了url的代码和html一样,在网站上有一些要抓取的项目,它说已经抓取了,但没有抓取。有人能帮我理解发生了什么事吗?我在想,也许网站会返回验证码,但即便如此,我认为crawlera会自动重试它获取验证码的请求 以下是日志: 'time': '2017-02-12', 'tit

大家好,我又一次参加了C10计划,并试图抢夺亚马逊网站

我有这个问题,有时日志说一个网站是爬网的,但它不会抓取我想要的数据,它会按照我的指示跳转到下一页。从某些页面上看,它会从一些页面上刮下来,但它不会,我不明白。就像我检查了url的代码和html一样,在网站上有一些要抓取的项目,它说已经抓取了,但没有抓取。有人能帮我理解发生了什么事吗?我在想,也许网站会返回验证码,但即便如此,我认为crawlera会自动重试它获取验证码的请求

以下是日志:

'time': '2017-02-12',
'title': u'Basic GIS Coordinates, Second Edition',
'url': u'https://www.amazon.com/Basic-GIS-Coordinates-Second-Sickle/dp/1420092316/ref=sr_1_64?s=tradein-aps&srs=9187220011&ie=UTF8&qid=1486932384&sr=1-64'}
2017-02-12 14:46:31 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s//s/ref=sr_nr_n_3/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541> (referer: None)
2017-02-12 14:46:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s//s/ref=sr_nr_n_2/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A52187011&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541> (referer: None)
2017-02-12 14:46:44 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s/ref=sr_pg_2/153-6246827-9833634?bbn=227541&fst=as%3Aoff&ie=UTF8&page=2&qid=1486932385&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&srs=9187220011> (referer: https://www.amazon.com/s//s/ref=sr_nr_n_3/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541)
2017-02-12 14:46:44 [scrapy.log] DEBUG: successfully added!
2017-02-12 14:46:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.com/s/ref=sr_pg_2/153-6246827-9833634?bbn=227541&fst=as%3Aoff&ie=UTF8&page=2&qid=1486932385&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&srs=9187220011>
{'currency': u'$',
“时间”:“2017-02-12”,
“标题”:u“基本GIS坐标,第二版”,
'url':u'https://www.amazon.com/Basic-GIS-Coordinates-Second-Sickle/dp/1420092316/ref=sr_1_64?s=tradein-aps&srs=9187220011&ie=UTF8&qid=1486932384&sr=1-64'}
2017-02-12 14:46:31[刮屑核心引擎]调试:爬网(200)(参考:无)
2017-02-12 14:46:42[刮屑核心引擎]调试:爬网(200)(参考:无)
2017-02-12 14:46:44[刮屑核心引擎]调试:爬网(200)(参考:https://www.amazon.com/s//s/ref=sr_nr_n_3/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A27541%2Cn%3A13735&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541)
2017-02-12 14:46:44[scrapy.log]调试:已成功添加!
2017-02-12 14:46:44[scrapy.core.scraper]调试:从
{'currency':u'$',

当你在亚马逊上爬行时,我猜你会得到一个“验证码”页面,而不是一个普通的产品页面


也许你应该打印你的回复内容,而不是仅仅返回项目,然后你就可以确定哪个页面被准确抓取了。

因为你有一个crawlera计划,我建议直接寻求帮助。是的,我有其他关于相同问题的帖子,有人建议这可能是验证码问题,所以我尝试使用crawlera自从他们处理了这件事,但我还是得到了同样的行为。谢谢你的建议,我会继续打印你建议的内容,以了解发生了什么。尽管每个页面都有什么共同点?比如我应该尝试打印什么?尝试响应。身体或类似的东西,如果不是响应,让人们可读打开整个html脚本?如果那样的话,我会打印很多,看不到太多,我的意思是它会很拥挤。你说让它可读是什么意思?我怎么做?是的,它会返回一个完整的html。然后,只需打印reponse.url,顺便说一句,如果你是根据你看到的日志提出问题,这是不相关的,刮取是必要的很快,并不是所有的东西都能发送到输出。我检查了数据库,但我没有该url中应该有的项目。会不会有这样的问题,比如爬行太快导致管道堵塞,或者类似我使用mongodb的情况,我将刮取的项目放在mongodb中的数据库中。可能爬行太快,mongodb不能继续,只放一些东西进去?那会是件事吗?