如何通过Java程序读取网页内容?

如何通过Java程序读取网页内容?,java,web-scraping,Java,Web Scraping,我计划写一个Java程序,从一个网站上读取一些汇率(http://www.doviz.com)我想知道什么是只阅读(或者阅读全部内容,去掉需要的部分)我需要的内容的最好方法 非常感谢您的帮助。我的建议是使用图书馆 使用类似css/jquery的语法解析外部内容非常容易 // Only one line to parse an external content Document doc = Jsoup.connect("http://jsoup.org").get(); //

我计划写一个Java程序,从一个网站上读取一些汇率(http://www.doviz.com)我想知道什么是只阅读(或者阅读全部内容,去掉需要的部分)我需要的内容的最好方法

非常感谢您的帮助。

我的建议是使用图书馆

使用类似css/jquery的语法解析外部内容非常容易

// Only one line to parse an external content
Document doc = Jsoup.connect("http://jsoup.org").get();

// "Javascript-like" syntax
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

// "Jquery/Css-like" syntax
Elements resultLinks = doc.select("h3.r > a");
Elements pngs = doc.select("img[src$=.png]");
只需将jsoup.jar库添加到类路径中,就可以享受了
当然是开源和免费使用。

我的建议是使用这个库

使用类似css/jquery的语法解析外部内容非常容易

// Only one line to parse an external content
Document doc = Jsoup.connect("http://jsoup.org").get();

// "Javascript-like" syntax
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

// "Jquery/Css-like" syntax
Elements resultLinks = doc.select("h3.r > a");
Elements pngs = doc.select("img[src$=.png]");
只需将jsoup.jar库添加到类路径中,就可以享受了

开源,当然可以免费使用。

我建议您实现网页的RSS阅读机制(以编程方式),并使用标准解析器提取RSS xml的内容。

我建议您实现网页的RSS阅读机制(以编程方式)并使用标准解析器提取RSS xml的内容。

签出。它很容易使用,功能强大,价格合理!退房它很容易使用,功能强大,价格合理!感谢您将JSoup带到桌面上,我正在使用httpclient处理上述用例,但我肯定会调查JSoup。也可以通过登录阅读受保护的页面吗?可以添加标题信息,所以我认为这是可能的。如果您需要一个complexe导航(表单post、重定向),HttpClient最好直接获取要用Jsoup或登录cookie解析的html内容,并将其注入连接Jsoup(
Jsoup.connect()http://example.comcookie(“auth”,“cookies数据”)
)感谢您将JSoup带到桌面,我将httpclient用于上述用例,但我肯定会调查JSoup。也可以通过登录阅读受保护的页面吗?可以添加标题信息,所以我认为这是可能的。如果您需要一个complexe导航(表单post、重定向),HttpClient最好直接获取要用Jsoup或登录cookie解析的html内容,并将其注入连接Jsoup(
Jsoup.connect()http://example.comcookie(“验证”、“cookies数据”)