Apache 将Solr(4.8.1)指向目录(Windows 7)
我正在建立一个文档目录搜索系统(文件类型如:MS Word、PDF、.txt、PowerPoint等) 文档目录存储在我的网络本地 我已经在我的机器上安装并运行了ApacheSolr(可以从localhost端口8983查看和访问管理员窗格) 我现在需要索引目录中文档的内容和标题,并通过我的Solr服务器进行搜索 下一步我该去哪里? ---更具体地说---Apache 将Solr(4.8.1)指向目录(Windows 7),apache,solr,indexing,
elasticsearch,information-retrieval,Apache,Solr,Indexing,
elasticsearch,Information Retrieval,我正在建立一个文档目录搜索系统(文件类型如:MS Word、PDF、.txt、PowerPoint等) 文档目录存储在我的网络本地 我已经在我的机器上安装并运行了ApacheSolr(可以从localhost端口8983查看和访问管理员窗格) 我现在需要索引目录中文档的内容和标题,并通过我的Solr服务器进行搜索 下一步我该去哪里? ---更具体地说--- 我是否需要集成开源索引技术,或者Solr是否可以自己对文档进行索引 我如何告诉Solr在这个目录中搜索?(或 通常,在我的硬盘驱动器/本地
- 我是否需要集成开源索引技术,或者Solr是否可以自己对文档进行索引
- 我如何告诉Solr在这个目录中搜索?(或 通常,在我的硬盘驱动器/本地网络上的目录中)
- Tika将自动尝试确定输入文档类型(Word、PDF、HTML)并适当提取内容。如果 您可以使用 stream.type参数
- Tika的工作原理是生成一个XHTML流,并将其提供给SAX ContentHandler。SAX是为许多人实现的通用接口
不同的XML解析器。有关更多信息,请参见
- Solr然后响应Tika的SAX事件并创建要索引的字段
- Tika根据DublinCore等规范生成标题、主题和作者等元数据。见
对于支持的文件类型 - Tika将所有提取的文本添加到内容字段。此字段在schema.xml中定义为“存储”。它也被复制到文本中 具有copyField规则的字段
- 您可以将Tika的元数据字段映射到Solr字段。你也可以提高这些领域
- 您可以为字段值传入文本。文本将覆盖Tika解析的值,包括Tika元数据对象中的字段 Tika内容字段和任何“捕获内容”字段
- 您可以对Tika XHTML应用XPath表达式来限制生成的内容
上的wiki页面包含教程和配置信息。Solr不会自行编制索引。外部流程必须将文档发布到Solr。看看ApacheNutch,它是一个命令行web爬虫程序,但也可以配置为对本地文件系统进行爬网(请参阅)。谢谢!因为我自己做了一些研究,我发现Nutch是Solr的首选爬虫程序——尽管我还没有配置它。事实证明,二进制Solr下载附带了几种允许手动索引的技术——使用ExtractingRequestHandler和命令行命令java-Dauto-jar post.jar和java-Dauto-drescursive-jar post.jar