Java中网页表示的一个问题_Java_Html

Java中网页表示的一个问题

java html

Java中网页表示的一个问题,java,html,Java,Html,我遵循了一个教程，提出了以下方法来将网页内容读入一个字符序列 public static CharSequence getURLContent(URL url) throws IOException { URLConnection conn = url.openConnection(); String encoding = conn.getContentEncoding(); if (encoding == null) { encod

我遵循了一个教程，提出了以下方法来将网页内容读入一个字符序列

 public static CharSequence getURLContent(URL url) throws IOException {
       URLConnection conn = url.openConnection();
       String encoding = conn.getContentEncoding();
       if (encoding == null) {
         encoding = "ISO-8859-1";
       }
       BufferedReader br = new BufferedReader(new
           InputStreamReader(conn.getInputStream(),encoding));
       StringBuilder sb = new StringBuilder(16384);
       try {
         String line;
         while ((line = br.readLine()) != null) {
           sb.append(line);
           sb.append('\n');
         }
       } finally {
         br.close();
       }
       return sb;
     }

它将返回url指定的网页的表示形式。然而，这种表示法与我在Firefox中使用的“查看页面源代码”有很大不同，因为我需要从原始网页（原始“查看页面源代码”文件中的某些数据段）中刮取数据，所以它总是无法在这种Java表示法中找到所需的文本。

我哪里出错了吗？我需要你们的建议，伙计们，非常感谢你们的帮助

您需要使用HTML解析库来构建表示此网页上HTML文本的数据结构。我的建议是使用这个库：。

请求和cookie之类的东西可以更改服务器在响应中返回的内容。因此，问题更可能出现在您发送的请求的细节上，而不是如何读取响应

类似的功能可以让您更轻松地模拟从浏览器发送的请求。

定义“大不相同”。到底什么是巨大的不同？在她之前的主题中有人推荐她，但她似乎完全忽略了这一点：