Java Web爬虫和刮刀

Java Web爬虫和刮刀,java,web,browser,Java,Web,Browser,我的目的是从各种网站上阅读产品的成本详细信息,以便在Spring应用程序的html页面中显示成本比较详细信息。谁能建议我怎么做。有什么技术可以做到这一点吗?因此,我可以随时从其他网站读取更新的数据,并将其显示在我的Spring应用程序中。我看到一些Web刮板工具作为Chrome扩展,但它会生成Excel工作簿。如何在Spring应用程序中使用它并在HTML页面中显示它?您可以从Spring应用程序发送http查询并解析更新数据的答案。或者,您可以使用任何外部工具来刮取任何您想要的内容并保存结果(

我的目的是从各种网站上阅读产品的成本详细信息,以便在Spring应用程序的html页面中显示成本比较详细信息。谁能建议我怎么做。有什么技术可以做到这一点吗?因此,我可以随时从其他网站读取更新的数据,并将其显示在我的Spring应用程序中。我看到一些Web刮板工具作为Chrome扩展,但它会生成Excel工作簿。如何在Spring应用程序中使用它并在HTML页面中显示它?

您可以从Spring应用程序发送http查询并解析更新数据的答案。或者,您可以使用任何外部工具来刮取任何您想要的内容并保存结果(例如Excel工作簿),您的应用程序将读取这些结果,并根据您的需要进行处理。

有许多基于Java和python的开源爬虫程序,您可以根据需要进行配置,其中一些如下所述

Apache Nutch StormCrawler Jsoup Jaunt 阿帕奇坚果 风暴爬虫 大杀器 短途旅行 在您的情况下,因为您只需要产品页面上的价格,所以您可以使用Java中可用的JSoup框架或Python中的Beauty Soup模块构建自己的产品

如果规模不是一个问题,你只是想每天抓取一些网页,我建议你建立自己的爬虫。否则,您可以使用Nutch或StormCrawler

此外,对于定制,请不要为不同的网页使用多个选择器,事实上,只需找到一个通用的标签、CSS或模板即可获得价格。

可能的重复项