Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/apache/8.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache 将Solr(4.8.1)指向目录(Windows 7)_Apache_Solr_Indexing_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Information Retrieval - Fatal编程技术网 elasticsearch,information-retrieval,Apache,Solr,Indexing,elasticsearch,Information Retrieval" /> elasticsearch,information-retrieval,Apache,Solr,Indexing,elasticsearch,Information Retrieval" />

Apache 将Solr(4.8.1)指向目录(Windows 7)

Apache 将Solr(4.8.1)指向目录(Windows 7),apache,solr,indexing,elasticsearch,information-retrieval,Apache,Solr,Indexing,elasticsearch,Information Retrieval,我正在建立一个文档目录搜索系统(文件类型如:MS Word、PDF、.txt、PowerPoint等) 文档目录存储在我的网络本地 我已经在我的机器上安装并运行了ApacheSolr(可以从localhost端口8983查看和访问管理员窗格) 我现在需要索引目录中文档的内容和标题,并通过我的Solr服务器进行搜索 下一步我该去哪里? ---更具体地说--- 我是否需要集成开源索引技术,或者Solr是否可以自己对文档进行索引 我如何告诉Solr在这个目录中搜索?(或 通常,在我的硬盘驱动器/本地

我正在建立一个文档目录搜索系统(文件类型如:MS Word、PDF、.txt、PowerPoint等)

文档目录存储在我的网络本地

我已经在我的机器上安装并运行了ApacheSolr(可以从localhost端口8983查看和访问管理员窗格)

我现在需要索引目录中文档的内容和标题,并通过我的Solr服务器进行搜索

下一步我该去哪里? ---更具体地说---

  • 我是否需要集成开源索引技术,或者Solr是否可以自己对文档进行索引
  • 我如何告诉Solr在这个目录中搜索?(或 通常,在我的硬盘驱动器/本地网络上的目录中)
您可以使用(以前称为

它建在屋顶上

关于Solr单元:

关键概念

在使用Solr单元框架时,保持 请记住:

  • Tika将自动尝试确定输入文档类型(Word、PDF、HTML)并适当提取内容。如果 您可以使用 stream.type参数
  • Tika的工作原理是生成一个XHTML流,并将其提供给SAX ContentHandler。SAX是为许多人实现的通用接口
    不同的XML解析器。有关更多信息,请参见
  • Solr然后响应Tika的SAX事件并创建要索引的字段
  • Tika根据DublinCore等规范生成标题、主题和作者等元数据。见
    对于支持的文件类型
  • Tika将所有提取的文本添加到内容字段。此字段在schema.xml中定义为“存储”。它也被复制到文本中 具有copyField规则的字段
  • 您可以将Tika的元数据字段映射到Solr字段。你也可以提高这些领域
  • 您可以为字段值传入文本。文本将覆盖Tika解析的值,包括Tika元数据对象中的字段 Tika内容字段和任何“捕获内容”字段
  • 您可以对Tika XHTML应用XPath表达式来限制生成的内容

上的wiki页面包含教程和配置信息。

Solr不会自行编制索引。外部流程必须将文档发布到Solr。看看ApacheNutch,它是一个命令行web爬虫程序,但也可以配置为对本地文件系统进行爬网(请参阅)。谢谢!因为我自己做了一些研究,我发现Nutch是Solr的首选爬虫程序——尽管我还没有配置它。事实证明,二进制Solr下载附带了几种允许手动索引的技术——使用ExtractingRequestHandler和命令行命令java-Dauto-jar post.jar和java-Dauto-drescursive-jar post.jar