Java 网络抓取少数网站并搜索其内容

Java 网络抓取少数网站并搜索其内容,java,search-engine,web-crawler,Java,Search Engine,Web Crawler,我打算建立一个服务,提供特定网站中特定网页的摘要内容 因此,我不再依赖Google或Bing API(这需要花钱),而是考虑搜索一个网络爬虫和一个可以完成这项工作的搜索引擎。我只需要一个小规模,所以Apache Nutch对于这个项目来说太大了 理想的解决方案是一个可嵌入的库,它可以获取网站列表,获取网站内容,并将其保存在数据库中供以后搜索。有什么建议吗 你的意思是你打算建立一个总结web内容的服务吗?以下是一些可用于实现此目的的API: 还有我自己的一些: 最后两篇文章基

我打算建立一个服务,提供特定网站中特定网页的摘要内容

因此,我不再依赖Google或Bing API(这需要花钱),而是考虑搜索一个网络爬虫和一个可以完成这项工作的搜索引擎。我只需要一个小规模,所以Apache Nutch对于这个项目来说太大了


理想的解决方案是一个可嵌入的库,它可以获取网站列表,获取网站内容,并将其保存在数据库中供以后搜索。有什么建议吗

你的意思是你打算建立一个总结web内容的服务吗?以下是一些可用于实现此目的的API:

还有我自己的一些:


最后两篇文章基于这篇关于如何创建自己的摘要器的优秀教程——

爬虫器和索引器通常是两个独立的组件

  • 对于爬行,您可以使用crawler4j进行查看。 它很简单,但我认为它涵盖了您正在寻找的一些功能。您可能需要使用JDBC调用来保存结果,但它可以很好地为您进行爬网
  • 对于索引,您可以使用lucene查看

我还建议你看看西北大学,它对这种方式的描述比我所能描述的要好得多……因此,这里是为你准备的摘要教程。那超出了我的问题范围。好的链接。是的,这是一个很好的图书馆。不过,我不清楚如何保存/索引和搜索数据。有什么想法吗?@M-T-A爬虫和索引器通常是两个独立的组件。我已经为您更新了上述信息。希望这有帮助。