Python 爬行（200）但没有'；不要被刮伤-克劳拉_Python_Mongodb_Scrapy_Web Crawler

Python 爬行（200）但没有'；不要被刮伤-克劳拉

python mongodb scrapy web-crawler

Python 爬行（200）但没有'；不要被刮伤-克劳拉,python,mongodb,scrapy,web-crawler,Python,Mongodb,Scrapy,Web Crawler,大家好，我又一次参加了C10计划，并试图抢夺亚马逊网站我有这个问题，有时日志说一个网站是爬网的，但它不会抓取我想要的数据，它会按照我的指示跳转到下一页。从某些页面上看，它会从一些页面上刮下来，但它不会，我不明白。就像我检查了url的代码和html一样，在网站上有一些要抓取的项目，它说已经抓取了，但没有抓取。有人能帮我理解发生了什么事吗？我在想，也许网站会返回验证码，但即便如此，我认为crawlera会自动重试它获取验证码的请求以下是日志： 'time': '2017-02-12', 'tit

大家好，我又一次参加了C10计划，并试图抢夺亚马逊网站

我有这个问题，有时日志说一个网站是爬网的，但它不会抓取我想要的数据，它会按照我的指示跳转到下一页。从某些页面上看，它会从一些页面上刮下来，但它不会，我不明白。就像我检查了url的代码和html一样，在网站上有一些要抓取的项目，它说已经抓取了，但没有抓取。有人能帮我理解发生了什么事吗？我在想，也许网站会返回验证码，但即便如此，我认为crawlera会自动重试它获取验证码的请求

以下是日志：

'time': '2017-02-12',
'title': u'Basic GIS Coordinates, Second Edition',
'url': u'https://www.amazon.com/Basic-GIS-Coordinates-Second-Sickle/dp/1420092316/ref=sr_1_64?s=tradein-aps&srs=9187220011&ie=UTF8&qid=1486932384&sr=1-64'}
2017-02-12 14:46:31 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s//s/ref=sr_nr_n_3/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541> (referer: None)
2017-02-12 14:46:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s//s/ref=sr_nr_n_2/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A52187011&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541> (referer: None)
2017-02-12 14:46:44 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s/ref=sr_pg_2/153-6246827-9833634?bbn=227541&fst=as%3Aoff&ie=UTF8&page=2&qid=1486932385&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&srs=9187220011> (referer: https://www.amazon.com/s//s/ref=sr_nr_n_3/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541)
2017-02-12 14:46:44 [scrapy.log] DEBUG: successfully added!
2017-02-12 14:46:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.com/s/ref=sr_pg_2/153-6246827-9833634?bbn=227541&fst=as%3Aoff&ie=UTF8&page=2&qid=1486932385&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&srs=9187220011>
{'currency': u'$',

“时间”：“2017-02-12”，
“标题”：u“基本GIS坐标，第二版”，
'url'：u'https://www.amazon.com/Basic-GIS-Coordinates-Second-Sickle/dp/1420092316/ref=sr_1_64?s=tradein-aps&srs=9187220011&ie=UTF8&qid=1486932384&sr=1-64'}
2017-02-12 14:46:31[刮屑核心引擎]调试：爬网（200）（参考：无）
2017-02-12 14:46:42[刮屑核心引擎]调试：爬网（200）（参考：无）
2017-02-12 14:46:44[刮屑核心引擎]调试：爬网（200）（参考：https://www.amazon.com/s//s/ref=sr_nr_n_3/153-6246827-9833634？srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A27541%2Cn%3A13735&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541）
2017-02-12 14:46:44[scrapy.log]调试：已成功添加！
2017-02-12 14:46:44[scrapy.core.scraper]调试：从
{'currency'：u'$'，

当你在亚马逊上爬行时，我猜你会得到一个“验证码”页面，而不是一个普通的产品页面

也许你应该打印你的回复内容，而不是仅仅返回项目，然后你就可以确定哪个页面被准确抓取了。

因为你有一个crawlera计划，我建议直接寻求帮助。是的，我有其他关于相同问题的帖子，有人建议这可能是验证码问题，所以我尝试使用crawlera自从他们处理了这件事，但我还是得到了同样的行为。谢谢你的建议，我会继续打印你建议的内容，以了解发生了什么。尽管每个页面都有什么共同点？比如我应该尝试打印什么？尝试响应。身体或类似的东西，如果不是响应，让人们可读打开整个html脚本？如果那样的话，我会打印很多，看不到太多，我的意思是它会很拥挤。你说让它可读是什么意思？我怎么做？是的，它会返回一个完整的html。然后，只需打印reponse.url，顺便说一句，如果你是根据你看到的日志提出问题，这是不相关的，刮取是必要的很快，并不是所有的东西都能发送到输出。我检查了数据库，但我没有该url中应该有的项目。会不会有这样的问题，比如爬行太快导致管道堵塞，或者类似我使用mongodb的情况，我将刮取的项目放在mongodb中的数据库中。可能爬行太快，mongodb不能继续，只放一些东西进去？那会是件事吗？