用java获取web html源文件

用java获取web html源文件,java,html,url,web,webpage,Java,Html,Url,Web,Webpage,我正在尝试使用java打开URL,获取html源代码并进行一些分析。我希望它能像浏览器一样工作,使用它可以加载页面并右键单击查看html源代码。我有以下代码,我认为这是一种相当标准的方式 public class getWeb { /** * @param args */ private static final String url = "http://www.appannie.com/apps/ios/top/united-states/games/ac

我正在尝试使用java打开URL,获取html源代码并进行一些分析。我希望它能像浏览器一样工作,使用它可以加载页面并右键单击查看html源代码。我有以下代码,我认为这是一种相当标准的方式

public class getWeb {

    /**
     * @param args
     */
    private static final String url = "http://www.appannie.com/apps/ios/top/united-states/games/action/?device=iphone&date=2014-05-08";
    private static final String url_alt = "http://www.mkyong.com";

    public static void main(String[] args) {
        try{
            URL appannie = new URL(url_alt);
            URLConnection page = appannie.openConnection();
            BufferedReader in = new BufferedReader(new InputStreamReader(
                     page.getInputStream(), "UTF-8"));
            String inputLine;
            StringBuilder a = new StringBuilder();
            while ((inputLine = in.readLine()) != null)
                a.append(inputLine);
            in.close();

            System.out.println(a.toString());
        } catch (IOException e){
            e.printStackTrace();
        }

    }
}
问题是url不起作用,它只返回503状态码,这意味着它不可用。但我肯定可以在浏览器中打开该页面并查看html代码,如果改用url_alt,我也可以获得html


我对web服务器不是很熟悉,我不知道为什么我不能像使用浏览器一样获取各种URL的html源代码。我还尝试了其他一些API,如jsoup和apache的httpclient,但问题是相同的。提前谢谢。

我试过你的代码,工作得很有魅力。可能是一些与代码无关的东西,我不知道像防火墙之类的东西?同样,你的代码对我很有用。你是说你可以从第一个url获取html?我的另一个朋友尝试过,也得到了503。。。