Java 基本搜索引擎-在抓取什么后';下一个呢?

Java 基本搜索引擎-在抓取什么后';下一个呢?,java,search,web-crawler,search-engine,Java,Search,Web Crawler,Search Engine,我已经使用BFS创建了一个简单的网络爬虫程序,在给定一些种子URL和一些关键字的情况下,通过搜索这些关键字来爬网。我相信下一步是建立索引,这样搜索引擎就可以查询它了,我想知道做这件事的最佳方法是什么?我最担心的是: 我应该将索引存储在文件还是数据库中 我是否存储找到的页面以及此页面中的所有传出地址,还是仅存储未访问的地址?我建议使用Lucene。它是索引和搜索性能方面的标准。Lucene默认情况下将索引信息存储到磁盘。你也可以。我建议使用Lucene。它是索引和搜索性能方面的标准。Lucene默

我已经使用BFS创建了一个简单的网络爬虫程序,在给定一些种子URL和一些关键字的情况下,通过搜索这些关键字来爬网。我相信下一步是建立索引,这样搜索引擎就可以查询它了,我想知道做这件事的最佳方法是什么?我最担心的是:

我应该将索引存储在文件还是数据库中


我是否存储找到的页面以及此页面中的所有传出地址,还是仅存储未访问的地址?

我建议使用Lucene。它是索引和搜索性能方面的标准。Lucene默认情况下将索引信息存储到磁盘。你也可以。

我建议使用Lucene。它是索引和搜索性能方面的标准。Lucene默认情况下将索引信息存储到磁盘。你也可以