用java获取web html源文件
我正在尝试使用java打开URL,获取html源代码并进行一些分析。我希望它能像浏览器一样工作,使用它可以加载页面并右键单击查看html源代码。我有以下代码,我认为这是一种相当标准的方式用java获取web html源文件,java,html,url,web,webpage,Java,Html,Url,Web,Webpage,我正在尝试使用java打开URL,获取html源代码并进行一些分析。我希望它能像浏览器一样工作,使用它可以加载页面并右键单击查看html源代码。我有以下代码,我认为这是一种相当标准的方式 public class getWeb { /** * @param args */ private static final String url = "http://www.appannie.com/apps/ios/top/united-states/games/ac
public class getWeb {
/**
* @param args
*/
private static final String url = "http://www.appannie.com/apps/ios/top/united-states/games/action/?device=iphone&date=2014-05-08";
private static final String url_alt = "http://www.mkyong.com";
public static void main(String[] args) {
try{
URL appannie = new URL(url_alt);
URLConnection page = appannie.openConnection();
BufferedReader in = new BufferedReader(new InputStreamReader(
page.getInputStream(), "UTF-8"));
String inputLine;
StringBuilder a = new StringBuilder();
while ((inputLine = in.readLine()) != null)
a.append(inputLine);
in.close();
System.out.println(a.toString());
} catch (IOException e){
e.printStackTrace();
}
}
}
问题是url不起作用,它只返回503状态码,这意味着它不可用。但我肯定可以在浏览器中打开该页面并查看html代码,如果改用url_alt,我也可以获得html
我对web服务器不是很熟悉,我不知道为什么我不能像使用浏览器一样获取各种URL的html源代码。我还尝试了其他一些API,如jsoup和apache的httpclient,但问题是相同的。提前谢谢。我试过你的代码,工作得很有魅力。可能是一些与代码无关的东西,我不知道像防火墙之类的东西?同样,你的代码对我很有用。你是说你可以从第一个url获取html?我的另一个朋友尝试过,也得到了503。。。