Web scraping scrapy：将起始url提取到scraping amazon视频信息的问题_Web Scraping_Scrapy

Web scraping scrapy：将起始url提取到scraping amazon视频信息的问题

web-scraping scrapy

Web scraping scrapy：将起始url提取到scraping amazon视频信息的问题,web-scraping,scrapy,Web Scraping,Scrapy,我是个新手。我想做的是从亚马逊网站上删除所有的亚马逊电影。我去了亚马逊网站www.amazon.com 我选择了搜索框左侧的亚马逊视频，输入“视频”并进行搜索。我有很多电影的清单。网址是https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-别名%3Dinstant video&field keywords=video&rh=n%3A2858778011%2Ck%3AVIOD 接下来，我去了scrapy shell，输入scrapy shell'

我是个新手。我想做的是从亚马逊网站上删除所有的亚马逊电影。我去了亚马逊网站www.amazon.com

我选择了搜索框左侧的亚马逊视频，输入“视频”并进行搜索。我有很多电影的清单。网址是https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-别名%3Dinstant video&field keywords=video&rh=n%3A2858778011%2Ck%3AVIOD

接下来，我去了scrapy shell，输入scrapy shell'https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-别名%3Dinstant video&field keywords=video&rh=n%3A2858778011%2Ck%3Avideo' 我的回复状态是400。我还尝试添加用户代理。scrapy shell-s USER_AGENT='Mozilla/5.0 Windows NT 6.1 AppleWebKit/537.36 KHTML，如Gecko Chrome/41.0.2228.0 Safari/537.36''https://www.amazon.com/s/ref=nb_sb_noss_1?url=search-别名%3Dinstant video&field keywords=video&rh=n%3A2858778011%2Ck%3Avideo' 我仍然得到响应状态“400”

为什么会这样？如何找到起始Url，以便开始抓取所有电影信息

我不知道如何处理它。如果有人能帮助我，我真的很感激。提前谢谢你

首先我尝试了scrapy shell，得到了一个503，然后我使用命令viewresponse查看页面上发生了什么。亚马逊让我验证我是否是机器人

所以我用用户代理集输入了你的第二个ScrapyShell命令，我得到了

也许你可以尝试使用viewresponse，看看你得到了什么，或者你可以再尝试几次scrapy shell？

@la_vie_est_belle非常感谢。是的，我又试了一次，现在成功了！后续问题，在亚马逊网站上，每当我在搜索框中键入智能手机时，我都无法得到任何回复。你知道为什么吗？例如，试试这个url：我不太明白你的意思，但你似乎没有理由得不到任何回应。你能发布你的代码或步骤让我看看你想做什么吗？你能试试这个吗？我得到了400个错误：scrapy shell-s USER_AGENT='Mozilla/5.0 Windows NT 6.1 AppleWebKit/537.36 KHTML，比如Gecko Chrome/41.0.2228.0 Safari/537.36'\=sr\u pgu 1\？fst\=as%3Aon\&rh\=k%3Asmart+phone%2Cn%3A2335752011%2Cn%3A7072561011\&keywords\=smart+phone\=ie\=UTF8\&qid\=1517020683'实际上我尝试时得到了200，但不是你上次评论中的那个。你上一次评论的url中有没有输入错误？我知道是怎么回事。当我将url从浏览器复制并粘贴到我的zsh时，它会自动添加许多“\”。如我最后的评论所示。我不知道为什么！如果你碰巧知道发生了什么，请告诉我。当我切换到bashshell时，一切都很好。非常感谢你！