Java 从HTML文件收集数据

Java 从HTML文件收集数据,java,html,web-scraping,Java,Html,Web Scraping,作为工作的一部分,我必须整理和收集有关学校管理员、地址和每个学校所在县的信息。我已经用java做了相当多的工作,所以我想如果我想做一些事情来做到这一点,应该用java 然而,我以前没有做过这样的事情,我有点困惑我应该从哪里开始。如果有人能帮助我了解我需要使用哪些类,以及我将如何通过HTML代码对所有这些进行排序的一些信息,那将是非常好的。谢谢。您需要实现一个scraper,即从HTML中提取数据的应用程序 首先,我将研究一个像样的scraper库,比如jsoup(),看看是否可以使用它来完成这项

作为工作的一部分,我必须整理和收集有关学校管理员、地址和每个学校所在县的信息。我已经用java做了相当多的工作,所以我想如果我想做一些事情来做到这一点,应该用java


然而,我以前没有做过这样的事情,我有点困惑我应该从哪里开始。如果有人能帮助我了解我需要使用哪些类,以及我将如何通过HTML代码对所有这些进行排序的一些信息,那将是非常好的。谢谢。

您需要实现一个scraper,即从HTML中提取数据的应用程序

首先,我将研究一个像样的scraper库,比如jsoup(),看看是否可以使用它来完成这项工作

在本质上,你最终会得到如下结果:

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");

只要根据需要继续应用选择规则来收集所需的数据。

您需要实现一个scraper,即从HTML中刮取数据的应用程序

首先,我将研究一个像样的scraper库,比如jsoup(),看看是否可以使用它来完成这项工作

在本质上,你最终会得到如下结果:

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");

只要根据需要继续应用select规则来收集所需的数据。

您可以使用java.util.regex;正则表达式非常有用且易于使用

您可以使用java.util.regex;正则表达式非常有用且使用简单

它可以很好地满足您的需要。我用它来开发一个带有自动化测试的应用程序,但它也适用于您。

它可以很好地满足您的需要。我用它来开发一个带有自动化测试的应用程序,但它也适用于您