Apache 将Solr（4.8.1）指向目录（Windows 7）_Apache_Solr_Indexing_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Information Retrieval

Apache 将Solr（4.8.1）指向目录（Windows 7）

apache solr indexing

Apache 将Solr（4.8.1）指向目录（Windows 7）,apache,solr,indexing,elasticsearch,information-retrieval,Apache,Solr,Indexing,elasticsearch,Information Retrieval,我正在建立一个文档目录搜索系统（文件类型如：MS Word、PDF、.txt、PowerPoint等）文档目录存储在我的网络本地我已经在我的机器上安装并运行了ApacheSolr（可以从localhost端口8983查看和访问管理员窗格）我现在需要索引目录中文档的内容和标题，并通过我的Solr服务器进行搜索下一步我该去哪里？ ---更具体地说--- 我是否需要集成开源索引技术，或者Solr是否可以自己对文档进行索引我如何告诉Solr在这个目录中搜索？（或通常，在我的硬盘驱动器/本地

我正在建立一个文档目录搜索系统（文件类型如：MS Word、PDF、.txt、PowerPoint等）

文档目录存储在我的网络本地

我已经在我的机器上安装并运行了ApacheSolr（可以从localhost端口8983查看和访问管理员窗格）

我现在需要索引目录中文档的内容和标题，并通过我的Solr服务器进行搜索

下一步我该去哪里？ ---更具体地说---

我是否需要集成开源索引技术，或者Solr是否可以自己对文档进行索引
我如何告诉Solr在这个目录中搜索？（或通常，在我的硬盘驱动器/本地网络上的目录中）

您可以使用（以前称为

它建在屋顶上

关于Solr单元：

关键概念

在使用Solr单元框架时，保持请记住：

Tika将自动尝试确定输入文档类型（Word、PDF、HTML）并适当提取内容。如果您可以使用 stream.type参数
Tika的工作原理是生成一个XHTML流，并将其提供给SAX ContentHandler。SAX是为许多人实现的通用接口
不同的XML解析器。有关更多信息，请参见
Solr然后响应Tika的SAX事件并创建要索引的字段
Tika根据DublinCore等规范生成标题、主题和作者等元数据。见
对于支持的文件类型
Tika将所有提取的文本添加到内容字段。此字段在schema.xml中定义为“存储”。它也被复制到文本中具有copyField规则的字段
您可以将Tika的元数据字段映射到Solr字段。你也可以提高这些领域
您可以为字段值传入文本。文本将覆盖Tika解析的值，包括Tika元数据对象中的字段 Tika内容字段和任何“捕获内容”字段
您可以对Tika XHTML应用XPath表达式来限制生成的内容

上的wiki页面包含教程和配置信息。

Solr不会自行编制索引。外部流程必须将文档发布到Solr。看看ApacheNutch，它是一个命令行web爬虫程序，但也可以配置为对本地文件系统进行爬网（请参阅）。谢谢！因为我自己做了一些研究，我发现Nutch是Solr的首选爬虫程序——尽管我还没有配置它。事实证明，二进制Solr下载附带了几种允许手动索引的技术——使用ExtractingRequestHandler和命令行命令java-Dauto-jar post.jar和java-Dauto-drescursive-jar post.jar