Java 从HTML文件收集数据
作为工作的一部分,我必须整理和收集有关学校管理员、地址和每个学校所在县的信息。我已经用java做了相当多的工作,所以我想如果我想做一些事情来做到这一点,应该用javaJava 从HTML文件收集数据,java,html,web-scraping,Java,Html,Web Scraping,作为工作的一部分,我必须整理和收集有关学校管理员、地址和每个学校所在县的信息。我已经用java做了相当多的工作,所以我想如果我想做一些事情来做到这一点,应该用java 然而,我以前没有做过这样的事情,我有点困惑我应该从哪里开始。如果有人能帮助我了解我需要使用哪些类,以及我将如何通过HTML代码对所有这些进行排序的一些信息,那将是非常好的。谢谢。您需要实现一个scraper,即从HTML中提取数据的应用程序 首先,我将研究一个像样的scraper库,比如jsoup(),看看是否可以使用它来完成这项
然而,我以前没有做过这样的事情,我有点困惑我应该从哪里开始。如果有人能帮助我了解我需要使用哪些类,以及我将如何通过HTML代码对所有这些进行排序的一些信息,那将是非常好的。谢谢。您需要实现一个scraper,即从HTML中提取数据的应用程序 首先,我将研究一个像样的scraper库,比如jsoup(),看看是否可以使用它来完成这项工作 在本质上,你最终会得到如下结果:
Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");
只要根据需要继续应用选择规则来收集所需的数据。您需要实现一个scraper,即从HTML中刮取数据的应用程序 首先,我将研究一个像样的scraper库,比如jsoup(),看看是否可以使用它来完成这项工作 在本质上,你最终会得到如下结果:
Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");
只要根据需要继续应用select规则来收集所需的数据。您可以使用java.util.regex;正则表达式非常有用且易于使用您可以使用java.util.regex;正则表达式非常有用且使用简单它可以很好地满足您的需要。我用它来开发一个带有自动化测试的应用程序,但它也适用于您。它可以很好地满足您的需要。我用它来开发一个带有自动化测试的应用程序,但它也适用于您