Amazon ec2 无法从ec2进行wget

Amazon ec2 无法从ec2进行wget,amazon-ec2,web-crawler,wget,Amazon Ec2,Web Crawler,Wget,我在https上爬行一个网站X,我可以在浏览器中打开它,甚至可以从我的pc上下载wget,但不能从ec2下载wget Connecting to X|IP|:443... connected. HTTP request sent, awaiting response. 当我在ec2上创建了一个vpn并通过这个vpn连接我的电脑时,我可以在浏览器中打开网站,但无法从我的电脑上进行wget 我已经尝试了多个ec2实例,同样的事情正在发生 更新 是否可以检测web请求是否来自wget或headles

我在https上爬行一个网站X,我可以在浏览器中打开它,甚至可以从我的pc上下载wget,但不能从ec2下载wget

Connecting to X|IP|:443... connected.
HTTP request sent, awaiting response.
当我在ec2上创建了一个vpn并通过这个vpn连接我的电脑时,我可以在浏览器中打开网站,但无法从我的电脑上进行wget

我已经尝试了多个ec2实例,同样的事情正在发生

更新


是否可以检测web请求是否来自wget或headless browser?

某些网站在没有“良好”浏览器用户代理的情况下会拒绝wget请求。请查看此处的示例:@mootmoot我尝试了多个用户代理,结果仍然相同,我可以通过我的pc进行wget,但不能通过位于singapore/mumbaiFirst的aws ec2服务器进行wget,这是唯一无法连接的站点吗?第二,你尝试过phantomjs或selenium headless模式吗?是的,这是唯一一个网站,我尝试过phantomjs,但同样的问题发生了。我试过firefox,它可以很好地工作。我不明白为什么phantomjs/wget/curl不能工作。也许服务器期望一些phantomjs不能接受的web头和用户代理。这是web服务器用来防止像phantomjs这样的机器人的常用技术。也许你想用嗅探器来诊断它。否则,您可以在headless中使用selenium+firefox。