Java中网页表示的一个问题

Java中网页表示的一个问题,java,html,Java,Html,我遵循了一个教程,提出了以下方法来将网页内容读入一个字符序列 public static CharSequence getURLContent(URL url) throws IOException { URLConnection conn = url.openConnection(); String encoding = conn.getContentEncoding(); if (encoding == null) { encod

我遵循了一个教程,提出了以下方法来将网页内容读入一个字符序列

 public static CharSequence getURLContent(URL url) throws IOException {
       URLConnection conn = url.openConnection();
       String encoding = conn.getContentEncoding();
       if (encoding == null) {
         encoding = "ISO-8859-1";
       }
       BufferedReader br = new BufferedReader(new
           InputStreamReader(conn.getInputStream(),encoding));
       StringBuilder sb = new StringBuilder(16384);
       try {
         String line;
         while ((line = br.readLine()) != null) {
           sb.append(line);
           sb.append('\n');
         }
       } finally {
         br.close();
       }
       return sb;
     }
它将返回url指定的网页的表示形式。 然而,这种表示法与我在Firefox中使用的“查看页面源代码”有很大不同,因为我需要从原始网页(原始“查看页面源代码”文件中的某些数据段)中刮取数据,所以它总是无法在这种Java表示法中找到所需的文本。
我哪里出错了吗?我需要你们的建议,伙计们,非常感谢你们的帮助

您需要使用HTML解析库来构建表示此网页上HTML文本的数据结构。我的建议是使用这个库:。

请求和cookie之类的东西可以更改服务器在响应中返回的内容。因此,问题更可能出现在您发送的请求的细节上,而不是如何读取响应


类似的功能可以让您更轻松地模拟从浏览器发送的请求。

定义“大不相同”。到底什么是巨大的不同?在她之前的主题中有人推荐她,但她似乎完全忽略了这一点: