Java 从网站上读取信息并存储在excel文件中
我正在尝试构建这个应用程序,当提供一个填充isbn号码的.txt文件时,只需将isbn添加到url www.isbn.nu/您的isbn号码,即可访问isbn.nu页面以获取该isbn号码 拉起页面后,我想扫描它以获取有关该书的信息,并将其存储在excel文件中 我正在考虑用Java创建url的文件流,但我不确定如何从html页面提取信息。存储信息将使用jexceljava包完成 我最好的猜测是使用javascript来提取信息,但我不知道如何从java程序中调用javascript 我的想法可信吗?如果不是,你们建议我怎么做 我的目标是:从html页面检索信息,并将每个ISBN的信息存储在excel文件中的文本文件中。文本文件中可以有任意数量的isbnJava 从网站上读取信息并存储在excel文件中,java,javascript,Java,Javascript,我正在尝试构建这个应用程序,当提供一个填充isbn号码的.txt文件时,只需将isbn添加到url www.isbn.nu/您的isbn号码,即可访问isbn.nu页面以获取该isbn号码 拉起页面后,我想扫描它以获取有关该书的信息,并将其存储在excel文件中 我正在考虑用Java创建url的文件流,但我不确定如何从html页面提取信息。存储信息将使用jexceljava包完成 我最好的猜测是使用javascript来提取信息,但我不知道如何从java程序中调用javascript 我的想法可
顺便说一句,这不是家庭作业,我只是为一个向苏丹捐赠书籍的组织做这件事。目前,他们有5个人手动编目这些书,我就是其中之一 以下是所需的步骤:
您可以使用此读取HTML信息。请使用一个div,在其中加载链接(此处的示例是如何执行此操作) 加载完成后,您可以检查网页中使用的div或span的名称,并使用
val
()或text
()获取该内容,这是解析网页并从中获取数据的有用工具。你可以用Java来做,而且非常简单
您可以解析文本文件,使用字符串构建URL,使用JSoup发送它,然后使用JSoup使用页面上的html标记解析信息。然后你可以随意储存。如果您对Java更熟悉,那么实际上根本不需要使用Javascript
读取页面并使用Jsoup对其进行解析的示例:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
以下是www.isbn.nu主页上的文本: 请注意,isbn.nu是为个人手动搜索而设计的。它不是用于自动检索的信息资源,也不是公司的研究工具。isbn.nu保留基于过度请求拒绝访问的权利 为什么不使用免费的GoogleBooksAPI以XML格式返回书籍详细信息呢。Java中有许多类可用于解析XML提要,这将使您的生活更加轻松
有关更多信息,请参阅。一个简单的解决方案可能是使用Google Docs电子表格功能,如
ImportXML(URL,路径表达式)
更多信息和示例如下: