Java lucene搜索

Java lucene搜索,java,lucene,indexing,full-text-search,content-indexing,Java,Lucene,Indexing,Full Text Search,Content Indexing,亲爱的StackOverFlow开发者,我需要你的帮助。我被困在ApacheLucene中,无法在JavaSwing应用程序中使用。这个问题太复杂了,连我都不知道该怎么问。 请尽量了解我的实际需求。 这个例子很简单,我必须给出html文件,以便客户端可以在swing应用程序中访问它们,对于搜索工具,我决定使用ApacheLucene索引。这为我提供了搜索功能,但现在我想显示与搜索条件匹配的html文件数据。在JavaAPI中,我使用swing,而JEditorPane是我必须在其中显示html文

亲爱的StackOverFlow开发者,我需要你的帮助。我被困在ApacheLucene中,无法在JavaSwing应用程序中使用。这个问题太复杂了,连我都不知道该怎么问。 请尽量了解我的实际需求。 这个例子很简单,我必须给出html文件,以便客户端可以在swing应用程序中访问它们,对于搜索工具,我决定使用ApacheLucene索引。这为我提供了搜索功能,但现在我想显示与搜索条件匹配的html文件数据。在JavaAPI中,我使用swing,而JEditorPane是我必须在其中显示html文件内容的控件。请建议我如何索引html文件,以及如何从lucene索引中获取html文件的内容。 html文件不仅具有文本,而且还具有链接、图像等

提前谢谢,希望能得到你的帮助
关于

在我们雇用Lucene进行全文索引和搜索的一个项目中,我们处理HTML文件如下:

  • 将HTML文档按原样存储在磁盘上(也可以存储在数据库中)
  • 使用的HTML->文本转换器,我们从HTML文档中提取文本、链接等
  • lucene文档具有一些属性,这些属性以标记化格式存储关于HTML文件的元数据以及HTML中的文本内容
  • 在索引前的标记化过程中,使用StandardAnalyzer保留某些标记,如电子邮件、网站链接
  • 搜索索引时,返回的命中包含符合条件的HTML文件的元数据。因此,我们能够为给定的搜索结果识别要显示的HTML内容

HTH.

那么您能帮助我如何在数据库中存储html文件以及如何从数据库中访问它们吗?您只需创建一个表(ID、文件名、文件内容、日期创建、日期更新)并将每个html文件存储在一个记录中。索引器进程将从表中选取相关记录,并对它们进行索引。在搜索过程中,从Hits中返回的document对象中获取ID,检索相应的内容并显示在JEditorPane中。我是否也可以将它们存储在ms access中?假设我直接想将文件夹中的所有文件存储到msaccess数据库的表中。如何可能您可以使用JDBC将记录插入表中,其中记录中的一列是文件的实际内容,您可以从该文件所在的目录中读取该文件。我会把它放在磁盘上,只在数据库中存储一个对它的引用,这样数据库就不会那么庞大了。是的,这很好,但我们不能给出实际格式的数据,我们只想以lucene索引的形式给出html数据,这样将来它就可以在互联网上更新