Java 如何读取网页的某些部分并将其文本存储在excel文件中

Java 如何读取网页的某些部分并将其文本存储在excel文件中,java,html,webpage,html-content-extraction,Java,Html,Webpage,Html Content Extraction,我已经下载了一些网站由网站复印机软件。我想从所有页面中提取一些信息 假设有许多产品页面,我只想从所有页面收集产品信息,并将其存储在excel文件中 我想知道做这件事的可能方法。我的朋友告诉我,他可以写一些脚本并实现它,但我不明白任何脚本如何能够解决这个问题 是否有任何自由软件或任何代码可以做这项工作。我非常了解java,如果我可以通过编写代码用java实现,那么请提供一些指导。您可能不想使用java,而是使用JavaScript,因为产品页面是网页,所以您可能会更习惯使用浏览器本机语言。如果是我

我已经下载了一些网站由网站复印机软件。我想从所有页面中提取一些信息

假设有许多产品页面,我只想从所有页面收集产品信息,并将其存储在excel文件中

我想知道做这件事的可能方法。我的朋友告诉我,他可以写一些脚本并实现它,但我不明白任何脚本如何能够解决这个问题


是否有任何自由软件或任何代码可以做这项工作。我非常了解java,如果我可以通过编写代码用java实现,那么请提供一些指导。

您可能不想使用java,而是使用JavaScript,因为产品页面是网页,所以您可能会更习惯使用浏览器本机语言。如果是我,我会这样做:

1-编写一个主JS脚本,每次加载一个页面

2-在每个页面上,选择产品信息,可能带有类似$'productID'之类的内容

3-将它们转换成JSON格式,并使用第三方库导出到CSV,或者自己编写一些代码。一个这样的库的例子:

看看,一个用于HTML文档的Java库

你可以在他们的网站上找到大量的文档

您需要了解CSS选择器,以便从文档中选择特定元素,示例请参见


然后将收集的数据以逗号分隔的值写入文本文件,您可以将其加载到Excel中。

请详细说明第一步或提供任何示例。由于我对JSFirst没有太多的知识和经验,您需要一个名为jQuery的JS库。其次,假设您将页面存储在home/page1.html、home/page2.html等处,要将每个页面中的productID内容加载到result.html中的一个jsonResult div中,您只需将其放入result.html:$'jsonResult'。加载'home/page1.html divproductID'。这是总的想法。当然,您还需要解析JSON中的内容。Ref:谢谢,我现在可以在result.html中获取数据了,现在我有最后一个问题,我有数百个产品页面,如何一次从所有页面提取数据,或者以任何方式一个接一个地从页面自动获取数据?这不是JS问题。这是一个令人遗憾的问题。这实际上取决于页面的命名方式。举个假例子,如果它存储为page1、page2等,就像我上面提到的,你只需要做一个For循环,使用load'home/page'+I+'.html divproductID'和I作为迭代索引。如果命名方案是随机的,没有办法解析它,你可以使用服务器端语言,比如Java,重命名主题或至少遍历目录,但我觉得我在这里太笨拙了。