Web scraping 如何修复使用Jsoup从Amazon查找数据时出现的503错误

Web scraping 如何修复使用Jsoup从Amazon查找数据时出现的503错误,web-scraping,web-crawler,jsoup,http-status-code-503,Web Scraping,Web Crawler,Jsoup,Http Status Code 503,我想下载亚马逊图书的图片,我有一个图书数据库; 我想从amazon上找到这些书的图片,所以我使用Jsoup来找到它; 但是当我运行程序时;它发生了一个错误: org.jsoup.HttpStatusException: HTTP error fetching URL. Status=503, URL=http://www.amazon.cn/s?ie=UTF8&page=1&rh=n%3A658390051%2Ck%3AA%20perfectly%20matched%20anis

我想下载亚马逊图书的图片,我有一个图书数据库; 我想从amazon上找到这些书的图片,所以我使用Jsoup来找到它; 但是当我运行程序时;它发生了一个错误:

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=503, URL=http://www.amazon.cn/s?ie=UTF8&page=1&rh=n%3A658390051%2Ck%3AA%20perfectly%20matched%20anisotropic%20absorber%20for%20use%20as%20an%20absorbing%20boundary%20condition
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:537)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:534)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:493)
    at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:205)
    at org.jsoup.helper.HttpConnection.get(HttpConnection.java:194)
    at util.ExtractService.extract(ExtractService.java:75)
如何修复它?还有其他方法可以解决这个问题吗?python?

HTTP错误503表示“服务不可用”错误

尝试检查任何连接问题: 1.您的internet连接 2.您需要使用任何代理设置吗? 3.您是否有可能停止Jsoup连接的严格防火墙设置

任何其他可能导致JVM和网站之间连接失败的错误。

HTTP错误503表示“服务不可用”错误

尝试检查任何连接问题: 1.您的internet连接 2.您需要使用任何代理设置吗? 3.您是否有可能停止Jsoup连接的严格防火墙设置


任何其他可能导致JVM和网站之间连接失败的因素。

我尝试放置一个用户代理,它工作正常

Document document = Jsoup
                .connect("https://www.amazon.com/")
                .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.38 Safari/537.36")
                .get();

希望有帮助

我试着安装了一个用户代理,它运行得很顺利

Document document = Jsoup
                .connect("https://www.amazon.com/")
                .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.38 Safari/537.36")
                .get();

希望有帮助

HTTP错误503表示“服务不可用”。 可能有一般原因,包括Internet连接、相关防火墙、来自计算机的代理设置、服务器繁忙以及服务器正在维护


即使这些是最可能的原因,也可能存在另一种情况,即服务器已检测到您使用Jsoup作为机器人进行Web抓取。所以,服务器可以防止Web抓取,并将其简单地表示为503错误。

HTTP错误503表示“服务不可用”。 可能有一般原因,包括Internet连接、相关防火墙、来自计算机的代理设置、服务器繁忙以及服务器正在维护


即使这些是最可能的原因,也可能存在另一种情况,即服务器已检测到您使用Jsoup作为机器人进行Web抓取。所以,服务器可以防止Web抓取,并将其简单地表示为503错误。

工作起来就像一个charme!非常感谢。工作得很卖力!非常感谢。我的解决方案对你有用吗?我的解决方案对你有用吗?