Java-从url读取页面源返回未知字符
我使用下面的代码从url()读取页面源代码,在NetBeans中使用“UTF-8”字符集,但它返回未知字符(附加的图像)。我不知道问题出在哪里,如果能帮助我修改代码使其正常工作,我将不胜感激?谢谢Java-从url读取页面源返回未知字符,java,amazon-web-services,aws-lambda,amazon-dynamodb,amazon,Java,Amazon Web Services,Aws Lambda,Amazon Dynamodb,Amazon,我使用下面的代码从url()读取页面源代码,在NetBeans中使用“UTF-8”字符集,但它返回未知字符(附加的图像)。我不知道问题出在哪里,如果能帮助我修改代码使其正常工作,我将不胜感激?谢谢 使用HttpsUrlConnection而不是UrlConnection。请参阅。使用HttpsUrlConnection而不是UrlConnection。请参阅。我相信您看到的是加密的有效负载。您需要使用某种类型的HTTPS客户端来处理密钥交换、服务器证书验证以及最重要的流解码。@skomisa感
使用
HttpsUrlConnection
而不是UrlConnection
。请参阅。使用HttpsUrlConnection
而不是UrlConnection
。请参阅。我相信您看到的是加密的有效负载。您需要使用某种类型的HTTPS客户端来处理密钥交换、服务器证书验证以及最重要的流解码。@skomisa感谢您的回答。我已经在代码中取消了这一行的注释。@skomisa谢谢你的回答。这只是一个输入错误,我在代码中没有注释这一行(问题与此无关!)@Mr.Nobody我也尝试过阅读亚马逊的主页,但效果有限。有一些。亚马逊似乎故意不让他们的页面变得容易。再次感谢@skomisa,我将尝试使用“Jsoup”。我相信你看到了加密的负载。您需要使用某种类型的HTTPS客户端来处理密钥交换、服务器证书验证以及最重要的流解码。@skomisa感谢您的回答。我已经在代码中取消了这一行的注释。@skomisa谢谢你的回答。这只是一个输入错误,我在代码中没有注释这一行(问题与此无关!)@Mr.Nobody我也尝试过阅读亚马逊的主页,但效果有限。有一些。亚马逊似乎故意不让他们的页面变得容易。再次感谢@skomisa,我将尝试使用“Jsoup”。我已经用“HttpsUrlConnection”检查了它,但没有任何改变@对不起,我的错!我已经用“HttpsUrlConnection”检查了它,但没有任何变化@对不起,我的错!
public static String getURLSource(String url) throws IOException
{
URL urlObject = new URL(url);
URLConnection urlConnection = urlObject.openConnection();
urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
return toString(urlConnection.getInputStream());
}
private static String toString(InputStream inputStream) throws IOException
{
try (BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream, "UTF-8")))
{
String inputLine;
StringBuilder stringBuilder = new StringBuilder();
while ((inputLine = bufferedReader.readLine()) != null)
{
stringBuilder.append(inputLine);
}
return stringBuilder.toString();
}
}