Web scraping scrapy:将起始url提取到scraping amazon视频信息的问题

Web scraping scrapy:将起始url提取到scraping amazon视频信息的问题,web-scraping,scrapy,Web Scraping,Scrapy,我是个新手。我想做的是从亚马逊网站上删除所有的亚马逊电影。我去了亚马逊网站www.amazon.com 我选择了搜索框左侧的亚马逊视频,输入“视频”并进行搜索。我有很多电影的清单。网址是https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-别名%3Dinstant video&field keywords=video&rh=n%3A2858778011%2Ck%3AVIOD 接下来,我去了scrapy shell,输入scrapy shell'

我是个新手。我想做的是从亚马逊网站上删除所有的亚马逊电影。我去了亚马逊网站www.amazon.com

我选择了搜索框左侧的亚马逊视频,输入“视频”并进行搜索。我有很多电影的清单。网址是https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-别名%3Dinstant video&field keywords=video&rh=n%3A2858778011%2Ck%3AVIOD

接下来,我去了scrapy shell,输入scrapy shell'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-别名%3Dinstant video&field keywords=video&rh=n%3A2858778011%2Ck%3Avideo' 我的回复状态是400。 我还尝试添加用户代理。scrapy shell-s USER_AGENT='Mozilla/5.0 Windows NT 6.1 AppleWebKit/537.36 KHTML,如Gecko Chrome/41.0.2228.0 Safari/537.36''https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-别名%3Dinstant video&field keywords=video&rh=n%3A2858778011%2Ck%3Avideo' 我仍然得到响应状态“400”

为什么会这样? 如何找到起始Url,以便开始抓取所有电影信息

我不知道如何处理它。如果有人能帮助我,我真的很感激。提前谢谢你

首先我尝试了scrapy shell,得到了一个503,然后我使用命令viewresponse查看页面上发生了什么。亚马逊让我验证我是否是机器人

所以我用用户代理集输入了你的第二个ScrapyShell命令,我得到了


也许你可以尝试使用viewresponse,看看你得到了什么,或者你可以再尝试几次scrapy shell?

@la_vie_est_belle非常感谢。是的,我又试了一次,现在成功了!后续问题,在亚马逊网站上,每当我在搜索框中键入智能手机时,我都无法得到任何回复。你知道为什么吗?例如,试试这个url:我不太明白你的意思,但你似乎没有理由得不到任何回应。你能发布你的代码或步骤让我看看你想做什么吗?你能试试这个吗?我得到了400个错误:scrapy shell-s USER_AGENT='Mozilla/5.0 Windows NT 6.1 AppleWebKit/537.36 KHTML,比如Gecko Chrome/41.0.2228.0 Safari/537.36'\=sr\u pgu 1\?fst\=as%3Aon\&rh\=k%3Asmart+phone%2Cn%3A2335752011%2Cn%3A7072561011\&keywords\=smart+phone\=ie\=UTF8\&qid\=1517020683'实际上我尝试时得到了200,但不是你上次评论中的那个。你上一次评论的url中有没有输入错误?我知道是怎么回事。当我将url从浏览器复制并粘贴到我的zsh时,它会自动添加许多“\”。如我最后的评论所示。我不知道为什么!如果你碰巧知道发生了什么,请告诉我。当我切换到bashshell时,一切都很好。非常感谢你!