Java中网页表示的一个问题
我遵循了一个教程,提出了以下方法来将网页内容读入一个字符序列Java中网页表示的一个问题,java,html,Java,Html,我遵循了一个教程,提出了以下方法来将网页内容读入一个字符序列 public static CharSequence getURLContent(URL url) throws IOException { URLConnection conn = url.openConnection(); String encoding = conn.getContentEncoding(); if (encoding == null) { encod
public static CharSequence getURLContent(URL url) throws IOException {
URLConnection conn = url.openConnection();
String encoding = conn.getContentEncoding();
if (encoding == null) {
encoding = "ISO-8859-1";
}
BufferedReader br = new BufferedReader(new
InputStreamReader(conn.getInputStream(),encoding));
StringBuilder sb = new StringBuilder(16384);
try {
String line;
while ((line = br.readLine()) != null) {
sb.append(line);
sb.append('\n');
}
} finally {
br.close();
}
return sb;
}
它将返回url指定的网页的表示形式。
然而,这种表示法与我在Firefox中使用的“查看页面源代码”有很大不同,因为我需要从原始网页(原始“查看页面源代码”文件中的某些数据段)中刮取数据,所以它总是无法在这种Java表示法中找到所需的文本。
我哪里出错了吗?我需要你们的建议,伙计们,非常感谢你们的帮助 您需要使用HTML解析库来构建表示此网页上HTML文本的数据结构。我的建议是使用这个库:。请求和cookie之类的东西可以更改服务器在响应中返回的内容。因此,问题更可能出现在您发送的请求的细节上,而不是如何读取响应
类似的功能可以让您更轻松地模拟从浏览器发送的请求。定义“大不相同”。到底什么是巨大的不同?在她之前的主题中有人推荐她,但她似乎完全忽略了这一点: